Реставрация ruGPT3XL 1.3B
Пару дней занимаюсь попытками заставить работать модельку
ai-forever/rugpt3xl, это такая классическая моделька от SberDevices на 1.3B параметров (крошка по современным меркам), на которой сберовцы обкатывали свои научные наработки.

Да, она хоть и foundation (то есть умеет только текст продолжать, но не может выполнять инструкции или работать в режиме чата), но обучена она на корпусе русского языка и этот самый русский язык генерит очень бодро. Одной из примечательных её особенностей является тот факт, что её обучали с нуля, вторая важная особенность в том, что это архитектура представляет из себя глубокую модификацию GPT-2.
Давно я мечтал её отреставрировать, до этого трижды пытался, но все предыдущие разы нехватало знаний и опыта работы с моделями, но вот вчера собрал волю в кулак, поднял старые заметки, склонировал всё, что может понадобиться для работы и написал подробные спецификации для кодового агента.
Задача агента была в том, чтобы изучить исходники