Derur

Dec 27 2024 10:50

Примеры и сравнения работы моего early-beta аудио переводчика!

Changelog (отчет о проделанной работе): URL

Все полные примеры (со всеми файлами, которые создаёт переводчик), включая оригиналы: URL

Платные онлайн и офлайн сервисы: (дорогие и дешевые)

audio-video-transtalor

voice-clone

news

translator

Oct 20 2025 18:36

Changelog (отчет о проделанной работе):

В следующих обновлениях (FAST TODO):

- Добавить и офлайн переводчики;

- Добавить LLM перевод;

- Сделать логику понятнее (лично для меня);

- Добавить хотя бы ещё одну качественную модель озвучки (TTS);

- Исправить ударения в русском (обычная тактика "зам+ок" или "з`амок" не работает);

Будущее (TODO):

- Уменьшение веса (удаление лишних/отладочных файлов);

- Кастомизация (возможность легко создавать переводы/темы и т.д.);

- Добавление всех качественных моделей (перевода/озвучки (TTS)/распознавания (STT));

- Ускорение (подбор оптимальных настроек);

- Куча тонких настроек для профи;

- CLI+GUI+WEBUI интерфейс;

Далёкое будущее (когда появится хорошее железо):

- Уменьшение веса переводчика до минимума и ускорение до максимума (замена умных, но больших моделей на глупые, маленькие, но дообученные - то есть почти то же качество, но меньший вес и больше скорость);

- Тестирование/отладка и добавление более крупных, но качественных моделей переводчиков/озвучки (TTS)/распознавания (STT) и т.д. (например, Suno/Bark, Google/Madlad400-10B и т.д.);

- Улучшение качества перевода/озвучки (TTS)/распознавания (STT)(благодаря их дообучению (finetuning’у));

- Возможная тренировка собственных моделей;

audio

video

audio-video-transtalor

translator

news

May 31 2025 12:21

НОВОСТИ ПО ПЕРЕВОДЧИКУ

Честно говорю — работы ещё много, до хорошей реализации примерно год. Я выгорел, потому что долго делать одно и то же тяжело морально, но я буду его переписывать как минимум все лето.
Да, сейчас вес проекта составляет ~300 GB — из-за моделей и модулей, которых довольно много. Одних только переводчиков — на 100 GB, и это более 20 разных моделей / видов.

Качество перевода часто лучше, чем у Яндекса (+ клонирование голоса). Многие модели на уровне DeepL, и даже есть поддержка LLM — то есть, если система позволяет, можно загрузить, например, DeepSeek для перевода.

Сейчас всё ещё далеко от идеала, и интерфейса (GUI / WEBUI) пока нет — доступна только CLI-версия.

Он будет поддерживать: Youtube (даже с скачкой субтитров), Spotify (даже с скачкой lyrics), сайты которые поддерживает yt-dlp и локальные аудио / видео файлы.

Из хороших новостей — самая минимальная версия может весить ~40 GB.
Но: на минимальных характеристиках перевод 2-минутного фрагмента занимает около 3 часов. Также из хорошего — значительный прирост качества (хотя и за счёт времени обработки): в 2–3 раза лучше, чем в текущих примерах. Ошибки от неверного ввода также исключены (я называю это системой "Защита от дебилов").

Код пока переписан примерно на 7%. Планирую внедрить систему лицензирования. И чтобы быть честным — код будет зашифрован, но без каких-либо вирусов, исключительно для целей лицензирования.

По характеристикам:

Минимальные:

CPU: i5 (10-го поколения)

GPU: GTX 1660

RAM: 16 GB

Space: ~50–60 GB

news

translator

translation

audio

audio-video-transtalor

voice-clone

video

Samuel Côté

Jun 02 2025 15:21

Feb 18 2025 21:41

Мои инструменты и приложения

В этом посте все мои инструменты, приложения и скачанные репаки!

Level required:

Бог

$4.2$3.1 per month

-25%

Discount applies to the first month only.

tool

app

portable

portabletool

Feb 18 2025 00:16

EyePilot

EyePilot - ИИ который по камере выслеживает куда вы смотрите на экран.

(качество видео плохое из-за того оно взято с github а не снято мной)

Скачать распаковать и запустить "!run.bat" (что-бы не насиловать SSD), можно просто запустить .exe но оно будет распаковывается в temp.

1. exe + bat:

EyePilot-portable_bat-Derur.7z788.58 Mb

2. exe:

exe

EyePilot_0_3_1a.exe804.63 Mb

portable

portableai

eyetracker

news

Jan 22 2025 16:34

Спойлер на мою будущую программу

Сейчас я массово переписываю переводчики, и мне это надоедает поэтому я решил отдохнуть и сделать... Свою версию Doulingo а именно приложение которое будет тебя обучать: языкам, математике, биологии, химии, физике, информатике(excel, powerpoint, word и тд.) и даже программированию(java, C++, C#, python)! И оно будет иметь уровни пользователя, настойчивости и даже режим обучения как в школах(считайте по учебнику и тд.) или по понятнее / репетиторский (с пояснением, более легкими путями и тд.). И сразу отвечу на вопросы!

1Q: Оно будет работать локально(без интернета)?

1A: Да, я добавлю возможность скачивать уроки заранее и возможно использовать локальные модели!

2Q: На чем оно работает? На каких моделях?

2A: Оно будет работать на chatgpt, gemin, моделях переводчиков и не только!

news

Jan 12 2025 00:18

Отчет по переводчикам аудио / видео и игр!

АУДИО/ ВИДЕО ПЕРЕВОДЧИК:

Сейчас ведется очень большая работа с кодом переводчиков!

В аудио / видео переводчике код состоит из суммарно ~20к строк и работает медленно и не эффективно (+нету gui / webui есть только cli).

Но сейчас я переписываю весь код полностью под более эффективную и компактную тактику! Учитывайте еще то-что я переписываю даже некоторые библиотеки по типу TTS! Вес переводчика только увеличивается ведь добавляется много новых моделей и подходов, но я планирую сделать его модульным а именно разные модели / модули которые занимают много места будут загружаться только если они нужны.

Будущее аудио видео переводчика:

Я очень стараюсь добиться результатов онлайн сервисов и это иногда даже получается но у меня занимает много времени, качественный перевод 2 минутной песни на gtx 1650 занимает ~2-3 часа, но среднего качество перевод и клон. голоса ~20-30 минут. Планируется анти пиратская система но мало вероятно что она будет. Самое большое что планируется это своя модель или что-то другое для создание более короткого (или более большого) перевода без потери смысла (пример: "Ох, как же тут прекрасно и красиво" -> "Ухты, как тут потресающе") для нормального сопоставления длины входного и выходного аудио!

ПЕРЕВОДЧИК ИГР:

Сейчас ведется очень большая работа с кодом переводчиков!

В переводчике игр код состоит из суммарно ~1к строк и работает медленно, багано и не эффективно (+нету gui / webui есть только cli).

Но сейчас я переписываю весь код полностью под более эффективную и компактную тактику! Учитывайте еще то-что я переписываю даже некоторые библиотеки! Вес переводчика игр не больше 25GB и это хорошо но далеко не все. Пока что он умеет багано (много ошибок) переводить игры на Unrel Engine, RenPy и Unity, Но почти во всех случаях (кроме Unrel Engine) оно именно заменяет оригинальные файлы создавая backup оригинальных файлов. Планирую исправить это с помощью так называемого режима "dlc" или "mods" а именно доп файл который легко удалить (как это и работает в Unreal Engine).

Будущее переводчика игр:

В скором времени исправлю главную ошибку "пропажа перевода" где пропадает некоторый перевод. Планируется целый локализатор который добавляет перевод в игру не как замена оригинального, а как доп опция (язык)! Планируется еще ИИ улучшение и перевод текстур! Еще планируется ИИ улучшение моделей (очень тяжело реализуемо)! И самое главное, как вишенка на торте будет (когда-то) добавлена возможность создания русской озвучки (полноценного русификатора)! И естественно добавить кучу поддерживаемых движков и игр!

translator

news

audio-video-transtalor

gametranslation

Samuel Côté

Jun 02 2025 15:21

Jan 04 2025 17:00

IMS-Toucan portable

IMS-Toucan это TTS с возможностью клонирования голоса почти на 7000 языков!

Level required:

Добрый человек

$1.38$1.04 per month

-25%

Discount applies to the first month only.

portable

portableai

tts

voice-clone

Jan 03 2025 22:26

.bat builder

.bat builder - это мой сборщик портативных .bat файлов!

Level required:

Добрый человек

$1.38$1.04 per month

-25%

Discount applies to the first month only.

portable

portabletool

tool

Dec 29 2024 15:40

fish-speech-Derur

fish-speech-Derur это форк fishaudio/fish-speech в который я добавил больше функционала в файлы vqgan/inference.py и llama/generate.py!

Инструкция по работе с этими файлами и моими дополнениями:

1.Сначала установите все зависимости:

python -m pip install -r requirements.txt

python -m pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

2. Скачайте модель:

git clone https://huggingface.co/fishaudio/fish-speech-1.5

3.Инструкция из оригинального репозитория:

ipynb

inference.ipynb4.96 Kb

WebUi:

python tools/run_webui.py \

--llama-checkpoint-path checkpoints/fish-speech-1.5 \

--decoder-checkpoint-path checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth \

# --compile

CLI:

1. Encode reference audio:

## Enter the path to the audio file here

src_audio = r"D:\PythonProject\vo_hutao_draw_appear.wav"

python tools/vqgan/inference.py -i {src_audio} --checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth" \

github

About

Примеры и сравнения работы моего early-beta аудио переводчика!

Changelog (отчет о проделанной работе):

НОВОСТИ ПО ПЕРЕВОДЧИКУ

EyePilot

Спойлер на мою будущую программу

Отчет по переводчикам аудио / видео и игр!

fish-speech-Derur

Добрый человек

Бог