Changelog (отчет о проделанной работе):
В следующих обновлениях (FAST TODO):
- Добавить и офлайн переводчики;
- Добавить LLM перевод;
- Сделать логику понятнее (лично для меня);
- Добавить хотя бы ещё одну качественную модель озвучки (TTS);
- Исправить ударения в русском (обычная тактика "зам+ок" или "з`амок" не работает);
Будущее (TODO):
- Уменьшение веса (удаление лишних/отладочных файлов);
- Кастомизация (возможность легко создавать переводы/темы и т.д.);
- Добавление всех качественных моделей (перевода/озвучки (TTS)/распознавания (STT));
- Ускорение (подбор оптимальных настроек);
- Куча тонких настроек для профи;
- CLI+GUI+WEBUI интерфейс;
Далёкое будущее (когда появится хорошее железо):
- Уменьшение веса переводчика до минимума и ускорение до максимума (замена умных, но больших моделей на глупые, маленькие, но дообученные - то есть почти то же качество, но меньший вес и больше скорость);
- Тестирование/отладка и добавление более крупных, но качественных моделей переводчиков/озвучки (TTS)/распознавания (STT) и т.д. (например, Suno/Bark, Google/Madlad400-10B и т.д.);
- Улучшение качества перевода/озвучки (TTS)/распознавания (STT)(благодаря их дообучению (finetuning’у));
- Возможная тренировка собственных моделей;
Версии:
0.2 - beta (~??.01.2026) (не полностью законченный прототип):
- Полностью переписанная логика (снова);
- Ускорение в среднем ~x50, в логике до ~x100 (использование других библиотек и по другому);
- Сильно выросшее качество и читаемость кода (думаю при выпуске буду обфусцировать);
- Автоматическое скачивание недостающих моделей (с моих репозиториев);
- Улучшенная защита от дебилов (от некорректного ввода), но с учетом ошибки раскладки только en-ru-en;
- Сильное уменьшение веса, примерно до 5gb в минимальной версии (новые библиотеки и слежка за мусором от них);
- CLI интерфейс;
0.1 (~??.09.2025):
- Полностью переписанная логика;
- Только 1 модель озвучки (TTS) - XTTS;
- Только онлайн переводчики;
- Нет склейки видео+аудио_дорожки+субтитры;
- Ускорение в ~x6 на озвучивании (TTS);
- Улучшенная модель для распознавания спикеров;
- Сильно выросшее качество голоса (из-за предварительной обработки);
- Автоматическое скачивание недостающих моделей;
- Защита от дебилов (от некорректного ввода);
- CLI интерфейс;
0.0 (~??.??.2024) (старая версия):
- Первый полностью рабочий прототип;
- Есть как онлайн, так и офлайн переводчики;
- Много моделей озвучивания (TTS);
- Склейка видео+аудио_дорожки+субтитры;
- CLI интерфейс;
ai
audio
video
audio-video-transtalor
translator
news