Changelog (отчет о проделанной работе):

В следующих обновлениях (FAST TODO):

- Добавить и офлайн переводчики;

- Добавить LLM перевод;

- Сделать логику понятнее (лично для меня);

- Добавить хотя бы ещё одну качественную модель озвучки (TTS);

- Исправить ударения в русском (обычная тактика "зам+ок" или "з`амок" не работает);

Будущее (TODO):

- Уменьшение веса (удаление лишних/отладочных файлов);

- Кастомизация (возможность легко создавать переводы/темы и т.д.);

- Добавление всех качественных моделей (перевода/озвучки (TTS)/распознавания (STT));

- Ускорение (подбор оптимальных настроек);

- Куча тонких настроек для профи;

- CLI+GUI+WEBUI интерфейс;

Далёкое будущее (когда появится хорошее железо):

- Уменьшение веса переводчика до минимума и ускорение до максимума (замена умных, но больших моделей на глупые, маленькие, но дообученные - то есть почти то же качество, но меньший вес и больше скорость);

- Тестирование/отладка и добавление более крупных, но качественных моделей переводчиков/озвучки (TTS)/распознавания (STT) и т.д. (например, Suno/Bark, Google/Madlad400-10B и т.д.);

- Улучшение качества перевода/озвучки (TTS)/распознавания (STT)(благодаря их дообучению (finetuning’у));

- Возможная тренировка собственных моделей;

Версии:

0.2 - beta (~??.01.2026) (не полностью законченный прототип):

- Полностью переписанная логика (снова);

- Ускорение в среднем ~x50, в логике до ~x100 (использование других библиотек и по другому);

- Сильно выросшее качество и читаемость кода (думаю при выпуске буду обфусцировать);

- Автоматическое скачивание недостающих моделей (с моих репозиториев);

- Улучшенная защита от дебилов (от некорректного ввода), но с учетом ошибки раскладки только en-ru-en;

- Сильное уменьшение веса, примерно до 5gb в минимальной версии (новые библиотеки и слежка за мусором от них);

- CLI интерфейс;

0.1 (~??.09.2025):

- Полностью переписанная логика;

- Только 1 модель озвучки (TTS) - XTTS;

- Только онлайн переводчики;

- Нет склейки видео+аудио_дорожки+субтитры;

- Ускорение в ~x6 на озвучивании (TTS);

- Улучшенная модель для распознавания спикеров;

- Сильно выросшее качество голоса (из-за предварительной обработки);

- Автоматическое скачивание недостающих моделей;

- Защита от дебилов (от некорректного ввода);

- CLI интерфейс;

0.0 (~??.??.2024) (старая версия):

- Первый полностью рабочий прототип;

- Есть как онлайн, так и офлайн переводчики;

- Много моделей озвучивания (TTS);

- Склейка видео+аудио_дорожки+субтитры;

- CLI интерфейс;

audio

video

audio-video-transtalor

translator

news

Derur

Changelog (отчет о проделанной работе):

Добрый человек

Бог