creator cover Derur
Derur

Derur 

Начинающий программист и аниматор :)

3subscribers

33posts

goals2
$0 of $1 404 raised
Обновление ПК для ускорения разработок и более интересных ИИ! А то у меня: - 16GB RAM - I5-10600K - GTX 1650 (надо обновить очень не хватает для ИИ)
$0 of $14 040 raised
На свой собственный сервер. For my own server.

About

RUS:
Привет! Мои хобби программирование и ИИ (Нейросети).

Сейчас я разрабатываю Аудио / Видео переводчик и переводчик игр! 
Я в процессе создания интересных, масштабных и полезных программ. Однако мне не хватает мотивации и компьютерных мощностей. Ваша поддержка поможет мне продолжать развиваться и реализовывать свои идеи!
Моя личная подборка портативного ИИ: ссылка
Донат: ссылка 
ENG:
Hi! My hobbies are programming and AI (neural networks).
Now I am developing an Audio / Video translator and Game translator !
I am working on creating interesting, large, and useful programs. However, I lack motivation and computing power. Your support will help me keep growing and bringing my ideas to life! 
My personal selection of portable AI's: url
Donation: url

Changelog (отчет о проделанной работе):

В следующих обновлениях (FAST TODO):
- Добавить и офлайн переводчики;
- Добавить LLM перевод;
- Сделать логику понятнее (лично для меня);
- Добавить хотя бы ещё одну качественную модель озвучки (TTS);
- Исправить ударения в русском (обычная тактика "зам+ок" или "з`амок" не работает);
Будущее (TODO):
- Уменьшение веса (удаление лишних/отладочных файлов);
- Кастомизация (возможность легко создавать переводы/темы и т.д.);
- Добавление всех качественных моделей (перевода/озвучки (TTS)/распознавания (STT));
- Ускорение (подбор оптимальных настроек);
- Куча тонких настроек для профи;
- CLI+GUI+WEBUI интерфейс;
Далёкое будущее (когда появится хорошее железо):
- Уменьшение веса переводчика до минимума и ускорение до максимума (замена умных, но больших моделей на глупые, маленькие, но дообученные - то есть почти то же качество, но меньший вес и больше скорость);
- Тестирование/отладка и добавление более крупных, но качественных моделей переводчиков/озвучки (TTS)/распознавания (STT) и т.д. (например, Suno/Bark, Google/Madlad400-10B и т.д.);
- Улучшение качества перевода/озвучки (TTS)/распознавания (STT)(благодаря их дообучению (finetuning’у));
- Возможная тренировка собственных моделей;

НОВОСТИ ПО ПЕРЕВОДЧИКУ

Честно говорю — работы ещё много, до хорошей реализации примерно год. Я выгорел, потому что долго делать одно и то же тяжело морально, но я буду его переписывать  как минимум все лето.
Да, сейчас вес проекта составляет ~300 GB — из-за моделей и модулей, которых довольно много. Одних только переводчиков — на 100 GB, и это более 20 разных моделей / видов.
Качество перевода часто лучше, чем у Яндекса (+ клонирование голоса). Многие модели на уровне DeepL, и даже есть поддержка LLM — то есть, если система позволяет, можно загрузить, например, DeepSeek для перевода.
Сейчас всё ещё далеко от идеала, и интерфейса (GUI / WEBUI) пока нет — доступна только CLI-версия.
Он будет поддерживать: Youtube (даже с скачкой субтитров), Spotify (даже с скачкой lyrics), сайты которые поддерживает yt-dlp и локальные аудио / видео файлы.
Из хороших новостей — самая минимальная версия может весить ~40 GB.
Но: на минимальных характеристиках перевод 2-минутного фрагмента занимает около 3 часов.  Также из хорошего — значительный прирост качества (хотя и за счёт времени обработки): в 2–3 раза лучше, чем в текущих примерах. Ошибки от неверного ввода также исключены (я называю это системой "Защита от дебилов").
Код пока переписан примерно на 7%. Планирую внедрить систему лицензирования. И чтобы быть честным — код будет зашифрован, но без каких-либо вирусов, исключительно для целей лицензирования.
По характеристикам:
Минимальные:
  CPU: i5 (10-го поколения)
  GPU: GTX 1660
  RAM: 16 GB
  Space: ~50–60 GB  
heartstar
Мои инструменты и приложения
  В этом посте все мои инструменты, приложения и скачанные репаки!
Level required:
Бог
$4.3$2.68 per month
-25%

EyePilot

EyePilot - ИИ который по камере выслеживает куда вы смотрите на экран.
(качество видео плохое из-за того оно взято с github а не снято мной)
Скачать распаковать и запустить "!run.bat" (что-бы не насиловать SSD), можно просто запустить .exe но оно будет распаковывается в temp.
1. exe + bat:
7z
EyePilot-portable_bat-Derur.7z788.58 Mb
2. exe:
exe
EyePilot_0_3_1a.exe804.63 Mb

Спойлер на мою будущую программу

Сейчас я массово переписываю переводчики, и мне это надоедает поэтому я решил отдохнуть и сделать... Свою версию Doulingo а именно приложение которое будет тебя обучать: языкам, математике, биологии, химии, физике, информатике(excel, powerpoint, word и тд.) и даже программированию(java, C++, C#, python)! И оно будет иметь уровни пользователя, настойчивости и даже режим обучения как в школах(считайте по учебнику и тд.) или по понятнее / репетиторский (с пояснением, более легкими путями и тд.). И сразу отвечу на вопросы!
1Q: Оно будет работать локально(без интернета)?
1A: Да, я добавлю возможность скачивать уроки заранее и возможно использовать локальные модели!
2Q: На чем оно работает? На каких моделях?
2A: Оно будет работать на chatgpt, gemin, моделях переводчиков и не только!

Отчет по переводчикам аудио / видео и игр!

АУДИО/ ВИДЕО ПЕРЕВОДЧИК:
Сейчас ведется очень большая работа с кодом переводчиков!
В аудио / видео переводчике код состоит из суммарно ~20к строк и работает медленно и не эффективно (+нету gui / webui есть только cli).
Но сейчас я переписываю весь код полностью под более эффективную  и компактную тактику! Учитывайте еще то-что я переписываю даже некоторые библиотеки по типу TTS! Вес переводчика только увеличивается ведь добавляется много новых моделей и подходов, но я планирую сделать его модульным а именно разные модели / модули которые занимают много места будут загружаться только если они нужны. 
Будущее аудио видео переводчика:
Я очень стараюсь добиться результатов онлайн сервисов и это иногда даже получается но у меня занимает много времени, качественный перевод 2 минутной песни на gtx 1650 занимает ~2-3 часа, но среднего качество перевод и клон. голоса ~20-30 минут. Планируется анти пиратская система но мало вероятно что она будет. Самое большое что планируется это своя модель или что-то  другое для создание более короткого (или более большого) перевода без потери смысла (пример: "Ох, как же тут прекрасно и красиво" -> "Ухты, как тут потресающе") для нормального сопоставления длины входного и выходного аудио!
 ПЕРЕВОДЧИК ИГР:
Сейчас ведется очень большая работа с кодом переводчиков!
В переводчике игр код состоит из суммарно ~1к строк и работает медленно, багано и не эффективно (+нету gui / webui есть только cli).
Но сейчас я переписываю весь код полностью под более эффективную и компактную тактику! Учитывайте еще то-что я переписываю даже некоторые библиотеки! Вес переводчика игр не больше 25GB и это хорошо но далеко не все. Пока что он умеет багано (много ошибок) переводить игры на Unrel Engine, RenPy и Unity, Но почти во всех случаях (кроме Unrel Engine) оно именно заменяет оригинальные файлы создавая backup оригинальных файлов. Планирую исправить это с помощью так называемого режима "dlc" или "mods" а именно доп файл который легко удалить (как это и работает в Unreal Engine).
Будущее переводчика игр:
В скором времени исправлю главную ошибку "пропажа перевода" где пропадает некоторый перевод. Планируется целый локализатор который добавляет перевод в игру не как замена оригинального, а как доп опция (язык)! Планируется еще ИИ улучшение и перевод текстур! Еще планируется ИИ улучшение моделей (очень тяжело реализуемо)! И самое главное, как вишенка на торте будет (когда-то) добавлена возможность создания русской озвучки (полноценного русификатора)! И естественно добавить кучу поддерживаемых движков и игр!
clapping_hands
IMS-Toucan portable
IMS-Toucan это TTS с возможностью клонирования голоса почти на 7000 языков!
Level required:
Добрый человек
$1.41$0.9 per month
-25%
.bat builder
.bat builder - это мой сборщик портативных .bat файлов!
Level required:
Добрый человек
$1.41$0.9 per month
-25%

fish-speech-Derur

fish-speech-Derur это форк fishaudio/fish-speech в который я добавил больше функционала в файлы vqgan/inference.py и llama/generate.py!
Инструкция по работе с этими файлами и моими дополнениями:
1.Сначала установите все зависимости:
python -m pip install -r requirements.txt
python -m pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
2. Скачайте модель:
git clone https://huggingface.co/fishaudio/fish-speech-1.5
3.Инструкция из оригинального репозитория:
ipynb
inference.ipynb4.96 Kb
WebUi: 
python tools/run_webui.py \
--llama-checkpoint-path checkpoints/fish-speech-1.5 \
--decoder-checkpoint-path checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth \
# --compile

CLI:
1. Encode reference audio:  
## Enter the path to the audio file here
src_audio = r"D:\PythonProject\vo_hutao_draw_appear.wav"
python tools/vqgan/inference.py -i {src_audio} --checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"  \
Subscription levels2

Добрый человек

$1.41$0.9 per month
-25%
Помощь автору!
- Открывает все посты
- Отвечаю на все вопросы

Бог

$4.3$2.68 per month
-25%
Почти все как у прошлого уровня но очень большая поддержка! 
- Дает ранний доступ к портативкам
- И некоторые другие плюшки)
Go up