Обновление нашей модели озвучивания SVR_TTS

Продолжаю искать способы улучшить свою модель синтеза речи.

На этот раз наткнулся на статью на arXiv, где авторы добились заметного улучшения качества синтеза на доступных open-source моделях. Их ключевая идея, обучать не на большом, а на чистом датасете.

Меня заинтересовала эта гипотеза, и я решил проверить её на практике. Применил те же алгоритмы очистки данных, что и в стать, в результате “в помойку” ушло около 80% исходных аудиофайлов. В финале осталось около 100 часов чистого аудио, именно на этом объёме я и начал обучение модели с нуля.

Почему не дообучение? Потому что текущая модель при долгом дообучении начинала "галлюцинировать" терять смысл речи.

Для первого этапа обучения арендовал сервер с 8 видеокартами NVIDIA H200 80GB. Однако на втором этапе возникло узкое место, CPU стал не справляться с потоками данных, из-за чего 8 GPU не удавалось загрузить на полную.

После небольших экспериментов оказалось, что с финансовой точки зрения разумнее перейти на одну карту H200 140GB и увеличить размер батча.

Пока что результат сырой, синтез остаётся неразборчивым, модель "говорит что попало", но уже не шумит, что само по себе хороший признак. Есть опасения, что объёма данных окажется недостаточно, и модель просто всё запомнит, не обобщив. Но, как говорится, кто не рискует.

Продолжение следует...

Kirill

А сколько примерно нужно времени, при условии что все пойдет идеально, чтобы можно было начинать озвучивать игры новой моделью? Это дни, недели, месяцы?

Jul 18 2025 08:17 (changed)

oeLLoReSIK [:Replying to Kirill

Kirill, Он в последнее время всё в ютуб шортс выкладывает.

Jul 21 2025 16:15

KirillReplying to oeLLoReSIK [:

oeLLoReSIK [:, там только игры которые озвучили полгода назад, актуального ничего нет, это скорее на привлечение тех кто не знает об озвучке, а актуальные новости только на бусти. Так что Ждем новостей)

Jul 22 2025 07:49

Riki Scoundrel

Эх Скайрим онлайн бы кто озвучил thinking_face

Jul 24 2025 18:58

oeLLoReSIK [:

Riki Scoundrel, Онлайн игры любителям сложнее озвучить, чем сюжетки.

Jul 24 2025 23:13

xz3tern

Здравствуйте. Планируете обновлять озвучку на The Outer Worlds: Spacer's Choice Edition?

Jul 25 2025 17:26

Сеня

Эх, кто бы озвучил мало кому нужную игру и DLC. https://store.steampowered.com/app/746850/Cloudpunk/

Jul 26 2025 01:06

M4dfury

Sleeping Dogs бы, уважаемый...там, как и в GTA, не возможно с кайфом рулить и одновременно читать) Спасибо за ваши труды! pizza

Jul 27 2025 04:05

Dmitry

Привет! Я на текущий момент пытаюсь написать софт который автоматизирует озвучку видео, примерно так, как делал Yandex для Youtube в своем браузере. Мне очень нравится как звучит ваша модель в Baldurs Gate 3. Я считаю, это на порядок лучше чем, то, что сделал Яндекс для Youtube. И я хотел бы, чтобы видео можно было бы озвучивать хотябы на таком уровне как Baldurs Gate 3. Я хотел бы понять, как ваша модель сделана с технологической точки зрения, например интересует, когда модель уже обучена, может ли она генерировать речь просто по небольшому референсу Audio, например как это реализовано в coqui/XTTS-v2? И какой объем памяти она занимает? Можете поделиться технологическими инсайтами или отправить куда-нибудь конкретно почитать?

Jul 29 2025 13:18