Обучение собственной голосовой модели
Нейросеть
so-vits-svc позволяет вам менять голос на любой другой. Об этом я уже рассказывал в другом своем
посте.
Единственная проблема - где взять модель, как ее обучить? В этом посте мы разберемся как это сделать.
Я подготовил colab-ноутбук, ниже прокомментирую основные шаги.
Шаг 0. Подготовка.
Нам нужно создать коллекцию голоса. Все это можно сохранить 1 длинным wav файлом или нарезать на маленькие (но необязательно - я обучал на файле длиной 10 минут).
Шаг 1. Установка библиотек

Чтобы все работало - нужно установить библиотеку и дать коду доступ к своему гугл диску. Это нужно для того, чтобы модель сохраняла чекпоинты на ваш диск, а процесс этот небыстрый. Код не будет больше ничего делать в вашем диске: репозиторий
so-vits-svc имеет уже больше 2000 звезд и если бы он что-то творил то об этом сразу бы заговорили, а остальные команды связаны с копированием временных файлов (cp/mv/..) и тоже легко проверяются. Другие пользователи от этого действия тоже доступ к диску не получают, доступ к диску получает только код во время запуска.
Шаг 2. Подготовка датасета.
Выбираем название спикера (я выбрал erlich). Выбираем английские названия без спецсимволов и пробелов. Кладем наш файл (или файлы) на диск по адресу: so-vits-svc-fork/dataset/erlich (erlich меняем на ваше название)

В эту папку кладем файл(ы) с голосом.
Меняем обведенный параметр на то же самое ваше название.

Запускаем код - он подготовит данные, а именно:
- нарежет
- переформатирует
- составит конфигурационные файлы
Шаг 3. Обучение.
Следующие 2 команды выведут tensorboard и запустят цикл обучения.


Примерно каждые 60 эпох (это полный проход по обучающим данным) промежуточная модель будет сохраняться по адресу: so-vits-svc-fork/logs/44k на гугл диске (именно для этого мы подключали гугл диск)
Файлы модели будут иметь вид:
config.json D_134.pth D_67.pth G_134.pth G_67.pth D_0.pth D_200.pth G_0.pth G_200.pth.
Ваша наилучшая модель составляет пару файлов: G_200.pth (чем больше число тем лучше выучилась модель) + config.json.
Далее эти файлы вы можете использовать для запуска кода на замену голоса.
Остались вопросы? Пишите в комментарии, обсудим.