Обновление нашей модели озвучивания SVR_TTS
Продолжаю искать способы улучшить свою модель синтеза речи.
На этот раз наткнулся на статью на arXiv, где авторы добились заметного улучшения качества синтеза на доступных open-source моделях. Их ключевая идея, обучать не на большом, а на чистом датасете.
Меня заинтересовала эта гипотеза, и я решил проверить её на практике. Применил те же алгоритмы очистки данных, что и в стать, в результате “в помойку” ушло около 80% исходных аудиофайлов. В финале осталось около 100 часов чистого аудио, именно на этом объёме я и начал обучение модели с нуля.
Почему не дообучение? Потому что текущая модель при долгом дообучении начинала "галлюцинировать" терять смысл речи.
Для первого этапа обучения арендовал сервер с 8 видеокартами NVIDIA H200 80GB. Однако на втором этапе возникло узкое место, CPU стал не справляться с потоками данных, из-за чего 8 GPU не удавалось загрузить на полную.
После небольших экспериментов оказалось, что с финансовой точки зрения разумнее перейти на одну карту H200 140GB и увеличить размер батча.
Пока что результат сырой, синтез остаётся неразборчивым, модель "говорит что попало", но уже не шумит, что само по себе хороший признак. Есть опасения, что объёма данных окажется недостаточно, и модель просто всё запомнит, не обобщив. Но, как говорится, кто не рискует.
Продолжение следует...
https://github.com/Selectorrr/svr_tts
https://github.com/Selectorrr/svr_voiceover