Zloibit, pimp my LLM
Эксперименты с ruGPT3XL напомнили мне о "боли" которую я испытывал работая и обучая модельки семейства ruGPT в 23м и 24м годах.
У всех у них был общие проблемы, модели ruGPT3 и 3.5 имели смехотворное контекстное окно в 2048 токенов, такой размер совсем никуда не годился и приходилось изобретать костыли в виде sliding window у чатов, надо было фильтровать обучающие датасеты придумывая стратегии умной очистки и так далее.
И вот после, не побоюсь этого слова, успешной конвертации ruGPT3XL в формат современных чекпоинтов пришла в голову мысля, а что если попробовать прокачать, ну для начала скажем, крошку ruGPT-3 XL 1.3B.
Про методолгию и результаты расскажу в отдельной публикации на Хабр, а всем кому интересно попробовать ruGPT3XL с увеличинным до 8k токенов контекстовм вот ссылочка: https://huggingface.co/evilfreelancer/ruGPT3XL-8k