Обновление нашей модели озвучивания SVR_TTS
Продолжаю искать способы улучшить свою модель синтеза речи.
На этот раз наткнулся на статью на arXiv, где авторы добились заметного улучшения качества синтеза на доступных open-source моделях. Их ключевая идея, обучать не на большом, а на чистом датасете.
Меня заинтересовала эта гипотеза, и я решил проверить её на практике. Применил те же алгоритмы очистки данных, что и в стать, в результате “в помойку” ушло около 80% исходных аудиофайлов. В финале осталось около 100 часов чистого аудио, именно на этом объёме я и начал обучение модели с нуля.
Почему не дообучение? Потому что текущая модель при долгом дообучении начинала "галлюцинировать" терять смысл речи.
Для первого этапа обучения арендовал сервер с 8 видеокартами NVIDIA H200 80GB. Однако на втором этапе возникло узкое место, CPU стал не справляться с потоками данных, из-за чего 8 GPU не удавалось загрузить на полную.
демонстрацию лучше давать дубоирлванную. за кадровая хороша тогда когда она одноголосая. но если для каждого персонажа свой голос, а помимо него ещё и английский со своими голосами то выходит какая то каша
просто некоторые по незнанию могут скачать не то, решить что вышла херня какая то и больше не вернутся. Я помню для бг3 так скачал за кадровую случайно (ну даже не предполагал что с ней будут заморачиваться и выкладывать) и было прямо больно