анонс: локальная модель для картинок
хей, парни и девчонки, у меня разъёбная новость:
готовлю интеграцию локальных моделей для генерации картинок, будет (пусть и с небольшими оговорками) то что многие хотели бы видеть и ваш "покорный" слуга планировал изначально (но руки дошли только сейчас): автоматическая генерация визуала, можно сказать что почти всё комбо - текст, картинки, речь будет собрано
на иммерсивность все три составляющие работают, как мне кажется - шикарно, не хватает видео :): но сразу про оговорки:
→ на ноутбучной nvidia 4070 картинка 1152*640 с 27 шагами генерится ~27-35 сек, это пожалуй главный минус, на декстопной будет ~14-16 сек. на cpu всё печально, думаю > пары минут
кнечно можно будет поменять разрешение, поиграться с кол-ом шагов, чтобы добиться большей скорости без сильной потери в кач-ве
→ с моделью claude есть проблемы с цензурой для автоматической генерации промтов картинок, но надеюсь в конечном итоге получится её обойти
→ модель весит 6.7gb, win-local версия вырастет до 17.5gb (но это думаю так себе беда, качается один раз, потом можно обновляться без встроенных локалок)
выбор пал на модель iLustMix - это sdxl stable diffusion, был вариант интегрировать чрз уже привычный koboldcpp, но отмёл потому что запросы с текстовой модели конкурировали с моделью картинок, ну и мне показалось родное решение от stable diffusion правильней
основная работа уже проведена, но в этот раз хочется выпустить максимально релизную версию без багов и чтобы новый функционал сходу давал бы всё необходимое поэтому скорее всего к следующей пятнице
если ты уже собаку съел на моделях sdxl - пиши рекомендации в личку и комменты
ах да, и пруфы-примеры того что пока получается, это без какой-либо обработки, как есть:
announcement
local model
images
sd
stable diffusion
ilustmix
А нельзя именно генерацию промта оставить за локальной моделью? Это вроде не сложная задача и с ней даже слабые модели должны справляться. Если уже используется одна локальную модель для картинок, то игра уже становится тяжелой и добавление еще одной модели для генерации промта под нее как будто выглядит неплохим решением.