Derur

Derur 

Начинающий программист и аниматор :)

3subscribers

33posts

goals2
$0 of $1 391 raised
Обновление ПК для ускорения разработок и более интересных ИИ! А то у меня: - 16GB RAM - I5-10600K - GTX 1650 (надо обновить очень не хватает для ИИ)
$0 of $13 905 raised
На свой собственный сервер. For my own server.

Changelog (отчет о проделанной работе):

В следующих обновлениях (FAST TODO):
- Добавить и офлайн переводчики;
- Добавить LLM перевод;
- Сделать логику понятнее (лично для меня);
- Добавить хотя бы ещё одну качественную модель озвучки (TTS);
- Исправить ударения в русском (обычная тактика "зам+ок" или "з`амок" не работает);
Будущее (TODO):
- Уменьшение веса (удаление лишних/отладочных файлов);
- Кастомизация (возможность легко создавать переводы/темы и т.д.);
- Добавление всех качественных моделей (перевода/озвучки (TTS)/распознавания (STT));
- Ускорение (подбор оптимальных настроек);
- Куча тонких настроек для профи;
- CLI+GUI+WEBUI интерфейс;
Далёкое будущее (когда появится хорошее железо):
- Уменьшение веса переводчика до минимума и ускорение до максимума (замена умных, но больших моделей на глупые, маленькие, но дообученные - то есть почти то же качество, но меньший вес и больше скорость);
- Тестирование/отладка и добавление более крупных, но качественных моделей переводчиков/озвучки (TTS)/распознавания (STT) и т.д. (например, Suno/Bark, Google/Madlad400-10B и т.д.);
- Улучшение качества перевода/озвучки (TTS)/распознавания (STT)(благодаря их дообучению (finetuning’у));
- Возможная тренировка собственных моделей;
Версии:
0.2 - beta (~??.01.2026(не полностью законченный прототип):
- Полностью переписанная логика (снова);
- Ускорение в среднем ~x50, в логике до ~x100 (использование других библиотек и по другому);
- Сильно выросшее качество и читаемость кода (думаю при выпуске буду обфусцировать);
- Автоматическое скачивание недостающих моделей (с моих репозиториев);
- Улучшенная защита от дебилов (от некорректного ввода), но с учетом ошибки раскладки только en-ru-en;
- Сильное уменьшение веса, примерно до 5gb в минимальной версии (новые библиотеки и слежка за мусором от них);
- CLI интерфейс;
0.1 (~??.09.2025):
- Полностью переписанная логика;
- Только 1 модель озвучки (TTS) - XTTS;
- Только онлайн переводчики;
- Нет склейки видео+аудио_дорожки+субтитры;
- Ускорение в ~x6 на озвучивании (TTS);
- Улучшенная модель для распознавания спикеров;
- Сильно выросшее качество голоса (из-за предварительной обработки);
- Автоматическое скачивание недостающих моделей;
- Защита от дебилов (от некорректного ввода);
- CLI интерфейс;
0.0 (~??.??.2024) (старая версия):
- Первый полностью рабочий прототип;
- Есть как онлайн, так и офлайн переводчики;
- Много моделей озвучивания (TTS);
- Склейка видео+аудио_дорожки+субтитры;
- CLI интерфейс;
Subscription levels2

Добрый человек

$1.4$0.89 per month
-25%
Помощь автору!
- Открывает все посты
- Отвечаю на все вопросы

Бог

$4.2$2.66 per month
-25%
Почти все как у прошлого уровня но очень большая поддержка! 
- Дает ранний доступ к портативкам
- И некоторые другие плюшки)
Go up