creator cover Павел Злой
Павел Злой

Павел Злой 

Директор ИИ-завода

11subscribers

5posts

About

20 лет в IT
 ∈ 10 лет в разработке
  ∈ 3 года в ML/AI
   ∈ 1 год - вайбмастер

Подготовка к AiConf 2026

Последнюю неделю в телеге от меня не очень много публикаций, дело в том, что я готовлюсь к мастер-классу, который проведу на конференции AiConf 2026, что будет 20го апреля на ВДНХ, там буду рассказывать о проекте SGR Agent Core одним из разработчиков которого я являюсь.
Планирую рассказать о проекте в целом, о том как развернуть Deep Research агента из примеров, а так же о создании файлового агента с нуля в интерактивном режиме.
Всем кому интересно заранее ознакомиться с программой и презентацией, то вот ссылочка на репозиторий.

Zloibit, pimp my LLM

Эксперименты с ruGPT3XL напомнили мне о "боли" которую я испытывал работая и обучая модельки семейства ruGPT в 23м и 24м годах.
У всех у них был общие проблемы, модели ruGPT3 и 3.5 имели смехотворное контекстное окно в 2048 токенов, такой размер совсем никуда не годился и приходилось изобретать костыли в виде sliding window у чатов, надо было фильтровать обучающие датасеты придумывая стратегии умной очистки и так далее.
И вот после, не побоюсь этого слова, успешной конвертации ruGPT3XL в формат современных чекпоинтов пришла в голову мысля, а что если попробовать прокачать, ну для начала скажем, крошку ruGPT-3 XL 1.3B.
Про методолгию и результаты расскажу в отдельной публикации на Хабр, а всем кому интересно попробовать ruGPT3XL с увеличинным до 8k токенов контекстовм вот ссылочка: https://huggingface.co/evilfreelancer/ruGPT3XL-8k

Реставрация ruGPT3XL 1.3B

Пару дней занимаюсь попытками заставить работать модельку ai-forever/rugpt3xl, это такая классическая моделька от SberDevices на 1.3B параметров (крошка по современным меркам), на которой сберовцы обкатывали свои научные наработки.
Подробнее в научной статье "A family of pretrained transformer language models for Russian" на Google Scholar.
Да, она хоть и foundation (то есть умеет только текст продолжать, но не может выполнять инструкции или работать в режиме чата), но обучена она на корпусе русского языка и этот самый русский язык генерит очень бодро. Одной из примечательных её особенностей является тот факт, что её обучали с нуля, вторая важная особенность в том, что это архитектура представляет из себя глубокую модификацию GPT-2.
Давно я мечтал её отреставрировать, до этого трижды пытался, но все предыдущие разы нехватало знаний и опыта работы с моделями, но вот вчера собрал волю в кулак, поднял старые заметки, склонировал всё, что может понадобиться для работы и написал подробные спецификации для кодового агента.
Задача агента была в том, чтобы изучить исходники

Пару слов о Бусти

Всем привет!
Решил завести страничку на Бусти, подумал чем Гейтс не шутит, для меня возможность получать копеечку будет лишним стимулом уделять больше внимание творчеству. К тому же железки стоят денег, софт стоит денег, всё чего-то да стоит.
В общем посмотрим к чему создание данной страницы приведёт :)
Subscription levels3

Observer

$1.4 per month
Для тех кому интересно просто наблюдать за проектами.

Explorer

$2.79 per month
Глубже погружается в контент и возможности.

Architect

$7 per month
Для тех, кто хочет оказать заметное влияние.
Go up