Гайд по настройке генерации изображений на базе Stable Diffusion 3.

Компания Stability AI недавно выпустила weights для Stable Diffusion 3 Medium, модели преобразования текста в изображение с 2 миллиардами параметров.

Я расскажу как использовать Stable Diffusion 3 (SD3) для получения наилучших изображений.

Чтобы помочь вам поэкспериментировать, перейдите в SD3 Explorer, которая предоставляет все настройки, о которых я расскажу здесь.

Выбор версии SD3.

Stability AI упаковал SD3-носитель различными способами, чтобы убедиться, что он может работать на как можно большем количестве устройств.

SD3 использует три разных кодировщика текста. Кодировщик текста - это часть, которая принимает ваше приглашение и переводит его в формат, понятный модели. Один из этих новых кодировщиков текста действительно большой – это означает, что он использует много памяти.

Если вы смотрите на SD3 Hugging Face weights, вы увидите четыре варианта с различными конфигурациями кодировщика текста. Вам следует выбрать, какой из них использовать, в зависимости от имеющейся у вас видеопамяти.

sd3_medium_incl_clips_t5xxlfp8.safetensors

Этот кодировщик содержит веса модели, два кодировщика текста CLIP и большую модель T5-XXL в сжатом формате fp8. Эти веса для простоты и получения наилучших результатов.

sd3_medium_incl_clips_t5xxlfp16.safetensors

То же, что и sd3_medium_incl_clips_t5xxlfp8.safetensors, за исключением того, что часть T5 сжата не так сильно. Используя fp16 вместо fp8, вы получите небольшое улучшение качества изображения. Это улучшение достигается за счет увеличения использования памяти.

sd3_medium_incl_clips.safetensors

В этой версии полностью отсутствует элемент T5. Он включает веса только с двумя кодировщиками текста CLIP. Это хороший вариант, если у вас мало видеопамяти, но ваши результаты могут сильно отличаться от полной версии. Вы можете заметить, что эта версия не так точно соответствует вашим подсказкам, а также может снизить качество текста на изображениях.

sd3_medium.датчики.safetensors

Эта модель представляет собой только базовые веса без каких-либо текстовых кодеров. Если вы используете эти веса, убедитесь, что вы загружаете текстовые кодеры отдельно. Stability AI предоставил для этого пример рабочего процесса ComfyUI.

Подсказка.

Большое изменение в использовании SD3 связано с подсказками. Теперь вы можете передавать очень длинные и описательные подсказки и получать обратно изображения с очень хорошим соответствием подсказкам.

Вы больше не ограничены лимитом в 77 токенов для кодировщика текста клипа.

Теперь ваша подсказка может содержать до 10 000 символов или более 1500 слов. На практике вам не понадобится такая длина, но очевидно, что нам больше не следует беспокоиться о длине подсказки.

В случае очень длинных подсказок на данный момент трудно сказать, что попадет в изображение, а что нет. Неясно, на какие части подсказки модель обратит внимание. Но чем длиннее и сложнее запрос, тем больше вероятность, что чего-то не будет хватать.

Не используйте негативные подсказки.

SD3 не был обучен работе с отрицательными подсказками.

Отрицательные подсказки работают не так, как вы ожидаете, с SD3. Если вы уже экспериментировали с SD3, возможно, вы заметили, что при выдаче отрицательного запроса изображение действительно меняется, но это изменение не является значимым. Ваше негативное приглашение не удалит ненужные вам элементы; вместо этого оно внесет шум и просто изменит ваш результат.

Методы подсказок.

Теперь, когда нам разрешены более длинные подсказки, вы можете использовать простые английские предложения и грамматику для описания нужного изображения.

Вы по-прежнему можете использовать ключевые слова, разделенные запятыми, как и раньше, но если вы стремитесь к чему-то конкретному, стоит использовать описательные и недвусмысленные подсказки.

Этот уровень подсказок теперь аналогичен тому, как вы запрашивали Midjourney версии 6 и DALL · E 3.

Когда вы описываете элемент изображения, постарайтесь сделать свой язык однозначным, чтобы предотвратить применение этих описаний к другим частям изображения.

Это примеры длинных и описательных подсказок, которые демонстрируют хорошее соблюдение требований SD3:

«мужчина и женщина стоят вместе на фоне, фон разделен поровну пополам посередине, левая сторона красная, правая золотая, на женщине футболка с изображением Йоды, на ней длинная юбка с птицами, на мужчине фиолетовый костюм-тройка, у него колючие голубые волосы».

a man and woman are standing together against a backdrop, the backdrop is divided equally in half down the middle, left side is red, right side is gold, the woman is wearing a t-shirt with a yoda motif, she has a long skirt with birds on it, the man is wearing a three piece purple suit, he has spiky blue hair

«мужчина в красно-синих бумажных 3D-очках 1980-х годов сидит на мотоцикле, он припаркован на парковке супермаркета, на нем полуденное солнце, на нем футболка Slipknot, черные брюки и ковбойские сапоги.

a man wearing 1980s red and blue paper 3D glasses is sitting on a motorcycle, it is parked in a supermarket parking lot, midday sun, he is wearing a Slipknot t-shirt and has black pants and cowboy boots

«фотография женщины в полупортрете крупным планом в элегантном бело-голубом летнем платье с мотивом монстеры, в квадратных белых очках, с заплетенными в зеленую косу волосами, она на галечном пляже в Брайтоне, Великобритания, очень ранним утром, сумерки восхода солнца».

a close-up half-portrait photo of a woman wearing a sleek blue and white summer dress with a monstera plant motif, has square white glasses, green braided hair, she is on a pebble beach in Brighton UK, very early in the morning, twilight sunrise

Настройки.

Существует множество настроек, некоторые из которых новые, которые вы можете использовать для изменения выходных данных изображения в SD3.

Ниже я рекомендую несколько хороших настроек по умолчанию, но вам следует поэкспериментировать, чтобы найти свои собственные настройки.

28 шагов.

CFG от 3.5 до 4.5

Сэмплер dpmpp_2m

Планировщик с sgm_uniform

Сдвиг 3.0

Как и SDXL, SD3 обеспечивает наилучшие выходные данные на уровне около 1 мегапикселя. Разрешение должно быть кратным 64. Рекомендуются следующие значения ширины и высоты для этих распространенных соотношений сторон:

1:1 - 1024 x 1024 (квадратные изображения)

16:9 - 1344 x 768 (кинематографический и широкоэкранный)

21:9 - 1536 x 640 (кинематографический)

3:2 - 1216 x 832 (Альбомное соотношение сторон)

2:3 - 832 x 1216 (Портретное соотношение сторон)

5:4 - 1088 x 896 (Альбомное соотношение сторон)

4:5 - 896 x 1088 (Портретное соотношение сторон)

9:16 - 768 x 1344 (Длинные вертикальные изображения)

9:21 - 640 x 1536 (изображения очень высокого размера).

Количество шагов.

Это значение представляет собой количество шагов шумоподавления, которые модель будет использовать при создании изображения. В SDXL это значение обычно составляло около 20, а для моделей Lightning - 4 шага. Количество шагов - основной фактор, определяющий, сколько времени потребуется для создания вашего изображения. Чем больше шагов, тем лучше изображение, чем меньше шагов, тем быстрее изображение.

Для SD3 рекомендуется выполнить 28 шагов. Это число позволяет получать четкие изображения с интересным передним и задним планом и небольшим количеством артефактов VAE (видимых шумовых паттернов, которые вы можете увидеть на сгенерированных изображениях), и это не займет слишком много времени.

Эффект увеличения шагов.

Влияние steps на качество изображения отличается от предыдущих моделей Stable Diffusion. Мы привыкли к пошаговому улучшению качества итеративно до определенного момента, когда эффект выравнивается и изображения остаются почти статичными. Но с SD3, по мере увеличения количества шагов, вы заметите кое-что другое.

SD3 обычно позволяет получить нормально выглядящее изображение примерно за 8-10 шагов хотя и с артефактами шума VAE и некогерентными частями изображения.

Это также зависит от запроса и начальных данных. По мере увеличения количества шагов вы получаете более связные и интересные изображения. Оптимальное значение составляет от 26 до 36.

Вы также обнаружите, что изображения и их объекты иногда могут довольно резко меняться при разных значениях шага. Например, при нечетком запросе человека вы можете обнаружить, что ваш объект меняет возраст, пол или этническую принадлежность по мере увеличения шагов.

Шкала рекомендаций

Шкала рекомендаций, или CFG, сообщает модели, насколько выходные данные должны быть похожи на подсказку.

Для SD3 вам нужно использовать более низкие значения, чем SD 1.5 и SDXL.

Рекомендуется где-то между 3.5 и 4.5. Если ваши выходные данные выглядят “выгоревшими”, как будто у них слишком высокий контраст, уменьшите CFG.

Сэмплер и планировщик.

Для SD3 мы рекомендуется использовать dpmpp_2m сэмплер с sgm_uniform планировщиком в ComfyUI.

Использование dpm++ 2M в Automatic1111. Euler также может дать хорошие результаты.

Некоторые сэмплеры и планировщики просто не работают с SD3, в частности, сэмплеры ancestral и sde и популярный планировщик шума SDXL - karras.

Сдвиг.

Shift - это новый параметр в SD3, который вы можете изменить. Он представляет сдвиг планирования временного интервала, при котором более высокие значения сдвига лучше справляются с шумом в более высоких разрешениях. По сути, при использовании сдвига лучше обрабатывается шум, и вы получаете более красивые изображения.

3.0 - рекомендуемое значение по умолчанию для shift, основанное на оценке предпочтений человека, но вы, конечно, можете его изменить. В ComfyUI вы можете найти значение в узле “ModelSamplingSD3”, а в Diffusers вы можете передать параметр shift в FlowMatchEulerDiscreteScheduler.

Значение сдвига 6.0 хорошо зарекомендовало себя при оценке человеком, и его стоит попробовать. Если вы используете более низкие значения, такие как 2.0 или 1.5, вы можете получить более сырое и “менее обработанное” изображение, которое хорошо работает для определенных подсказок.

🔥навигация по boosty

генерация изображений

редактирование изображ./видео/photoshop

промпты

⭐️⭐️⭐️⭐️⭐️

Showcase

Гайд по настройке генерации изображений на базе Stable Diffusion 3.

Тариф «Поддержка»

Тариф «Мастер»

«На связи с Нейрографом»

AI РЕЖИССЕР