Неросети наше ВСЁ! 💡🌐🟩
Друзья, не кажется ли вам, что мы живём в эпоху войн, и речь идёт не только о явных политических конфликтах, но и о борьбе технологий за право существовать и выходить на рынок?
Ранее в сети не было ничего подобного: главными конкурентами были Midjourney и ChatGPT, которые начали соперничать за лидерство, внедряя новые функции — изменение размера изображений, апскейл, повышение детализации.
Постепенно появлялись новинки, и число игроков росло.
Появился опенсорсный проект Stable Diffusion, позволивший генерировать изображения на домашних компьютерах, что стало настоящим подарком для пользователей — отпала необходимость платить за подписки. Это вызвало рост спроса на видеокарты NVIDIA с CUDA-ядрами, ведь именно они поддерживали генерацию на локальных машинах.
Позже появились агрегаторы, объединяющие несколько нейросетей и подключающие их по API-ключам. Сейчас это очень распространено: используются как open-source модели, работающие на собственных серверах, так и платные решения через API.
Прорывом стало появление контролирующих нейросетей — controlnet, которые позволяют удерживать определённые части изображения. Помимо знакомого лайн-арта, появились сети для переноса лиц, поз, фигур и других элементов. Controlnet позволяют брать за основу одно изображение и переносить его особенности на другое. Эти технологии появились и в платных Midjourney и ChatGPT, хотя последний использовал их в меньшей степени. Особенно хорошо с этим справлялся Midjourney, а также open-source модели (модели с открытым кодом и в свободном доступе), где controlnet тоже активно используются.
Stable Diffusion сначала вышел в версии 1.5, затем появилась версия 2, которая не оправдала ожиданий, и, наконец, Stable Diffusion XL, с которой многие (мы в том числе) работают до сих пор. Эти модели не слишком требовательны к железу и позволяют создавать изображения даже на слабых компьютерах. У Stable Diffusion самый большой набор controlnet, что даёт широкие возможности для генерации по референсам.
Параллельно развивались и GPT, и Midjourney, регулярно выпускали новые версии. Всё это напоминает гонку вооружений, за которой сложно уследить. Появились генеративные модели для создания музыки, видео по картинке или тексту — теперь это возможно не только на платных сервисах, но и на домашних компьютерах, даже с не самым мощным железом, о чем мы с вами обязательно поговорим на страницах нашего блога.
Революционным событием стал выход модели FLUX, доступной как в open-source, так и в платной версии. Платная версия более масштабная и качественная, а open-source Flux — хоть и требовательна к ресурсам, но обладает большим количеством параметров, обучена на большем датасете, хорошо понимает промты и позволяет использовать длинные описания, превосходя в этом SD XL.
Шокирующим развитием стала возможность обучения нейросетей практически любому стилю, предмету, человеку или персонажу с помощью так называемых лор, что значительно расширило возможности нейромастеров. Несмотря на эти новшества, другие нейросети, такие как Kolors и Hidream, оставались в тени Flux, хотя и предлагали интересные решения. По моему субъективному мнению, Flux стал и остается быть лидером.
После выхода Flux многие переключились на неё, и хотя ChatGPT и Midjourney продолжали развиваться, они оказались в тени. В этот период Midjourney выпустил обновление, добавив генерацию видео, а ChatGPT обновился, сделав возможным изменение фотографий без использования ControlNet, позволяя соединять два изображения, вставлять существующие изображения и текст, а также добавлять или удалять предметы с помощью одного промта. Это стало прорывом, так как ранее для подобных задач требовались дополнительные инструменты.
И вот появилась модель Flux Kontext, сначала в платной версии, а затем и в open-source.
Мы с нетерпением ждали её выхода в бесплатной версии, и результат превзошёл ожидания: эта модель объединяет возможности многих современных нейросетей, хорошо работает с лорами (хотя и не в полной мере с существующими, как хотелось бы) и, вероятно, скоро появятся инструменты и методики для создания лор специально под неё.
Flux Kontext позволяет генерировать и изменять изображения с помощью одного промта, удерживать нужные части изображения, менять, добавлять, удалять, стирать, переворачивать, раскрашивать, изменять позы и многое другое. Сейчас эта модель, по моему мнению, находится на пике революционного прогресса в области нейросетей.
Поскольку Flux Kontext стала доступна в open-source, ожидается, что Midjourney и ChatGPT тоже выпустят что-то революционное. Всё это напоминает революцию, сравнимую с появлением смартфонов после эпохи проводных телефонов.
Давайте вместе наслаждаться этой захватывающей гонкой за лидерство, ведь от этого выигрывают обычные пользователи — лидеры рынка всегда предлагают лучшие решения, включая открытие кода.
Возможности нейросетей практически безграничны, но применить их на практике - это еще надо постараться, додуматься, написать в голове так называемый workflow - рабочий процесс.
Мы с удовольствием будем вам рассказывать на страницах блога о практическом применении нейросетей, и не только в машинной вышивке, а и во многих сферах нашего творчества, жизни, работы.
Информации в сети очень много по нейронкам, но как найти нейроделов-практикантов, которые делятся своим опытом?
Ответ есть - мы здесь специально для этого. Мы - это Наталья Зотова и Лиза Прасс.
нейросети
для всех
инфо