milan

milan 

🤘

75subscribers

24posts

Showcase

3

UPSCALE IMAGE WAN2.2 v0.5.2 MILAN🤟для Comfy UI

json
UPSCALE IMAGE WAN2.2 v0.5.2 MILAN🤟.json123.75 Kb
png
UPSCALE IMAGE WAN2.2 v0.5.2 MILAN🤟.png19.90 Mb
Эта статья о схеме для пакетного креативного увеличения изображений моделью WAN2.2 с дополнительным устранением шумов для Comfy UI.
Весь последний месяц мы с коллегами тестировали эту схему в разных сценариях, и теперь я готов ей поделиться. Лучшего решения, чтобы быстро вправить на место пальцы, глаза, зубы, исправить косяки с анатомией без бесконечного перебора параметров мы до сих пор не встречали.

Дисклеймер

Я предполагаю, что вы:
  • Работали в ComfyUI;
  • Умеете пользоваться ComfyUI Manager и устанавливать кастомные ноды;
  • Понимаете, что такое креативный апскейл, зачем и когда его используют, и когда он не нужен


1. Примеры

Чтобы сэкономить ваше время, давайте сразу перейдем к примерам, чтобы понимать, подходит ли это решение для вашей задачи.
Все примеры закинул в в комментарии к посту в telegram-канале про этот рабочий процесс, там примеры можно удобно и быстро листать.
Обратите внимание на устранение шумов, восстановление деталей лица, текстуры тканей.
исходник 
результат
исходник
результат
исходник
результат
исходник
результат
⚠️ Насколько агрессивным будет креативное восстановление зависит от используемых LORa и их strength, а также параметров shift и denoise. Но об этом позже.

⚠️ Отдельно отмечу, что апскейл, это не финальный этап работы, особенно при работе с портретами. Я всегда отдельно улучшаю отдельные области схемой для инпейнта с автомаской, автопромптом и циклом. INPAINT NUNCHAKU FLUX AUTOMASK LOOP v2.0.0 MILAN🤘
Совсем скоро выложу новую версию с поддержкой WAN2.2


2. Какие преимущества у схемы?

  • WAN2.2 лучше понимает объекты и позы, отлично справляется с детализацией и исправлением текстуры тканей, зубов, пальцев, упорядочивает хаос и исправляет косяки генерации. Все, с чем частенько плохо справлялся Flux, WAN2.2 делает лучше;
  • Отлично восстанавливает детали, может спасти исходник очень плохого качества;
  • Отсутствует необходимость в предварительной нарезке изображения на отдельные тайлы, благодаря тому, что WAN2.2 может работать в большем разрешении, что значительно упрощает работу;
  • Схема сама автоматически увеличит изображение до необходимого размера с сохранением пропорций;
  • Подчищает шумы, сетку и зерно,
  • Для удаления шумов опционально добавлена модель 1 x-NMKD-Jaywreck3-Lite, что может быть важно для работы с Adobe который эти шумы не любит (используйте с осторожностью и по необходимости, когда нужно убрать шум и сетку при работе с плохими исходниками);
  • Автоматический промпт для апскейла с помощью модели Florence-2;

3. Какие минусы?

  • Требуется более мощная система, желательно иметь видеокарту с 16GB видеопамяти и хотя бы 32GB оперативной памяти для комфортной работы;
  • Генерация дольше в сравнении со схемой на Flux Nunchaku 2x UPSCALE FLUX-DEV NUNCHAKU CREATIVE + 2x SIMPLE v2.0 MILAN🤘;
  • Может плохо справляться со студийными снимками на сплошном цветном фоне, добавляя на него детали или складки;
  • Результат может сильно отличаться от исходника, при этом сохраняя изначальные позы и композицию;
  • Очень легко переборщить и все испортить: с неправильными настройками можно получить апскейл со слишком идеализированной картинкой или с чрезмерной детализацией, морщинистыми лицами с крутыми подбородками и резиновой кожей, но это не проблема модели или конкретно этой схемы, с опытом приходит понимание, какие параметры лучше использовать при решении конкретной задачи.
  • Если вы возьмете изначально качественную и детализированную фотографию, то можете столкнуться с деградацией деталей, хотя это очевидно, и связано с разрешением генерации и отсутствием предварительной нарезки на отдельные тайлы.
  • Не рекомендую для работы с иллюстрациями;

4. Сколько времени занимает апскейл одного изображения?


⚠️ Первый запуск может быть значительно дольше, даже в системе с производительной видеокартой, это нормально для WAN2.2!

Примерное время работы схемы для увеличения одного изображения:

RTX 5090 32GB — 50 секунд;
RTX 4080 Super 16GB —  60-95 секунд;
RTX 5060ti 16GB — 120 секунд;
RTX 3090 24GB — 130-135 секунд;
RTX 4070 12GB - 140-150 секунд;
RTX 3060 12GB — 250-300 секунд;


Основано на моих тестах и тестах коллег. Ваш результат может немного отличаться. Все мы запускали одинаковую схему с одинаковыми моделями:
Перегенерация моделью wan2.2_t2v_low_noise_14B_fp8_scaled,  денойз моделью  1x-NMKD-Jaywreck3-Lite и дополнительный апскейл до 4к моделью 2xNomosUni_span_multijpg_ldl с выключенным Sage Attention


5. А что делать обладателям слабых систем?

Схема в ее текущем виде не предполагает комфортную быструю работу со слабым железом. Желательно иметь видеокарту Nvidia с 16GB. и хотя бы 32GB оперативной памяти.
  • Но вы можете самостоятельно попробовать подключить модели полегче в формате GGUF. Необходимые ноды я разместил рядом с обычными нодами загрузки. Чем меньше размер модели, тем хуже качество, но и генерация станет быстрей, и меньше вероятность вылетов и ошибок из-за недостатка памяти. Я лично не тестировал другие модели и не могу посоветовать ничего конкретного. 
  • Еще вы можете уменьшить размер увеличения в группе RESIZE, который происходит перед перерисовкой WAN 2.2
  • Еще можно понизить количество шагов (steps) до 4
  • Если схема вылетает после обработки нескольких изображений, попробуйте заменить нод VAE Decode на VAE Decode (Tiled), он лежит рядом в группе UPSCALE SETTINGS.


6. В чем запускать схему?

Я использовал готовую сборку Comfy UI Easy Install v1.70.0 от сообщества 
Pixaroma.
В схеме нет критичных и специфических зависимостей, вы сможете попробовать запустить ее на обычной установке или другой сборке, если она достаточно новая, чтобы поддерживать работу с WAN2.2.

7. Что нужно скачать и зачем?

  1. WAN 2.2 t2v low noise 14B — основная модель для генерации
    1. WAN 2.2 fp8-scaled Размер: 14.3 GB ⬇️https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
    2. Или WAN 2.2 GGUF Размер: от 5.3GB до 15.4GB Подбирайте под свою видеокарту: чем меньше модель, тем хуже качество, но выше скорость генерации. Важно: требуются разные ноды для загрузки. ⬇️ https://huggingface.co/QuantStack/Wan2.2-T2V-A14B-GGUF/tree/main/LowNoise
  2. LORA's — адаптационные модели
    1. Lightx2v Wan2.2-T2V-A14B-4steps-lora-250928 (переименовать вручную) ⬇️https://huggingface.co/lightx2v/Wan2.2-Lightning/blob/main/Wan2.2-T2V-A14B-4steps-lora-250928/low_noise_model.safetensors
    2. Wan2.2-Fun-Reward Wan2.2-Fun-A14B-InP-low-noise-HPS2.1:⬇️ https://huggingface.co/alibaba-pai/Wan2.2-Fun-Reward-LoRAs/resolve/main/Wan2.2-Fun-A14B-InP-low-noise-HPS2.1.safetensors
  3. UMT5_xxl — текстовый энкодер
    1. Версия fp8 scaled: ⬇️ https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors
    2. Или версия GGUF:⬇️ https://huggingface.co/city96/umt5-xxl-encoder-gguf/tree/main
  4. VAE — вариационный автоэнкодер. Кодирует изображение в сжатый формат для обработки и декодирует его обратно в финальное изображение. ⬇️ https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/vae/wan_2.1_vae.safetensors
  5. 1x-NMKD-Jaywreck3-Lite — модель для удаления шумов (опционально). Мягко удаляет артефакты и шум, чтобы придирчивая приемка Adobe меньше ругалась. Используйте с осторожностью, вместе с шумами можно убрать и детали, поэтому хорошие качественные исходники модель скорее ухудшит. Помещаем в папку к моделям для апскейла в upscale_models: ⬇️ https://openmodeldb.info/models/1x-NMKD-Jaywreck3-Lite
  6. NomosUni span multijpg ldl — Upscale-модель для дополнительного увеличения (опционально). Увеличивает изображение после перегенерации в WAN2.2. Есть множество разных моделей на сайте openmodeldb.info. Часто использую эту простую быструю 2x модель, понимающую глубину резкости, чтобы меньше возиться. ⬇️ https://openmodeldb.info/models/2x-NomosUni-span-multijpg-ldl
  7. FLORENCE-2 Модель для распознавания содержимого на изображении и автоматической генерации промпта. ✅ Скачивается автоматически при первом запуске нода DownloadAndLoadFlorence2Model в группе PROMPT. В выпадающем списке выберите модель, например, gokaygokay/Florence2-Flux-Large

8. Замена или это твоей схеме с Flux Nunchaku?

В большинстве случаев скорее да. Несмотря на длительное время генерации, апскейл изображений с WAN2.2 в целом становится проще и качественнее. Появляется возможность исправить плохие работы, которые раньше проще было выкинуть. Но в каких-то редких случаях апскейл с Flux 2x UPSCALE FLUX-DEV NUNCHAKU CREATIVE + 2x SIMPLE v2.0 MILAN🤘может справиться лучше.

9. Из чего состоит схема

Если вы уже работаете с моими предыдущими рабочими процессами, то многое должно быть знакомо и привычно. 

🟩Зеленые ноды: меняем настройки
🟦Синие переключатели: выбираем режимы
Я постарался по возможности убрать все необязательные части, чтобы работа была проще и понятнее. 
Все ноды объединены в группы по смыслу:
  • DOWNLOADS: что и зачем нужно скачать со ссылками.
  • LOAD MODELS: здесь мы загружаем модели, которые используются всегда,
  • LOAD LORAS: здесь загружаем адаптационные модели, включаем и отключаем и меняем силу воздействия, чтобы улучшить качество генерации,
  • LOAD IMAGES: одиночная и пакетная отработка изображений,
  • PROMPT: автоматический промпт, ручной промпт и промпт из Description метаданных изображения,
  • RESIZE IMAGE: Автоматическое увеличение изображения с учетом пропорций до 2к перед перегенерацией в WAN2.2
  • UPSCALE SETTINGS: все настройки генерации в WAN2.2
  • DENOISE IMAGE: Опциональное устранение шумов моделью 1x-NMKD-Jaywreck3-Lite после первого увеличения и перегенерации в WAN2.2
  • 2nd UPSCALE 2x: Опциональное дополнительное увеличение моделью на выбор, по умолчанию стоит 2xNomosUni_span_multijpg_ldl, как одна из самых быстрых и простых c понимаем DOF (глубины резкости),
  • SAVE SETTINGS настройки сохранения,
  • и большой нод Image Comparer чтобы внимательно сравнить исходник и получившийся результат целиком.
Структура этого рабочего процесса позволяет усложнять и улучшать его дальше под ваши конкретные специфические задачи. 

10. Подробный алгоритм работы

Подготовка:

  1. Скачиваем и все необходимые модели, ссылки указаны в группе DOWNLOADS, а также в этой статье пункт 7.
  2. Модели нужно подключить в группах LOAD MODELS, LOAD LORAs, DENOISE IMAGE, 2nd UPSCALE 2x. модель Florence-2 будет скачана автоматически самим нодом DownloadAndLoadFlorence2Model. На это потребуется время при первом запуске, процесс загрузки вы увидите в консоли.
  3. Устанавливаем недостающие ноды через Comfy UI Manager.

Работа со схемой:


  1. группа LOAD IMAGES Загрузка изображений. Выберите один двух из режимов с помощью синего переключателя:
    1. LOAD IMAGES BATCH Пакетный режим для загрузки сразу всех изображений в папке (укажите путь к папке в текстовом поле нода Load Multiple Images with Name, Directory, Title, Description)
    2. LOAD SINGLE IMAGE загрузка одного изображения. Просто перетащите его в нод Load One Image with Name, Title, Description или выберите файл изображения, нажав кнопку choose file to upload этого нода.
  2. В группе PROMPT . Выберите один или несколько из режимов с помощью синего переключателя:
    1. PROMPT AUTO Автоматический промпт с FLORENCE2,
    2. PROMPT MANUAL 2 Ручной промпт,
    3. PROMPT FROM DESCRIPTION 3 Промпт из поля Description метаданных файла.
  3. RESIZE IMAGE Можно не трогать, изображение будет автоматически увеличено с сохранением пропорций и учетом необходимой кратности для работы с WAN2.2 перед перегенерацией.
  4. UPSCALE SETTINGS Основные настройки генерации WAN2.2:
    1. shift (0.5-5.0) Чем ниже значение тем ближе к исходнику, но меньше детализация, восстановление и креатив.
    2. denoise (0.0-1.0) Насколько перерисовать картинку (не путайте с устранением шумов в соседней группе DENOIZE IMAGE). Чем хуже качество изображения и сильнее артефакты, тем выше нужно ставить denoise. Чем меньше denoise, тем ближе результат к исходнику.
    3. При работе уделите особое внимание параметрам shift и denoise. Иногда выбывает сложно подобрать правильный баланс Рекомендую попробовать высокий shift (5.0) с низким denoise (0.1) И далее уже смотреть, насколько вам подходят эти параметры и корректировать их далее: например, поставить shift пониже, а денойз повыше. Всегда лучше провести несколько тестов, прежде чем запускать пакетную обработку!
    4. steps При желании, если хочется немного выиграть в скорости, можно понизить количество шагов с 8 до 4, но результат будет чуть хуже, но иногда фоны почище;
    5. При желании подобрать другой sampler и scheduler
  5. LORAs Адаптационные модели для улучшения качества и детализации. Lightx2vLightx2v и Fun-Reward лоры. Включенные в данный момент лоры и сила их воздействия (strength_model) ОЧЕНЬ влияют на результат. Выбирайте, какие Лоры включить и силу их воздействия в зависимости от специфики изображения, изначального качества и задачи. Без них изображение получится мутным и недетализированным, но при высоких значениях strength_model можно и переборщить. Справа от группы есть заметка про эти Лоры. Скрин заметки прикрепил чуть ниже.
  6. DENOISE IMAGE Опциональное устранение шумов моделью 1x-NMKD-Jaywreck3-Lite на этапе после увеличения и перегенерации WAN2.2. Для улучшения приемки придирчивых стоков. Удаление шумов это вынужденная мера для облегчения приемки и работы стокеров. DENOISE IMAGE помогает убрать артефакты плохих исходников, но может и серьезно ухудшить результат увеличения изначально качественных изображений. Группа опциональная, ее можно отключить.
  7. 2nd UPSCALE 2x Опциональное дополнительное увеличение моделью на выбор, по умолчанию стоит 2xNomosUni_span_multijpg_ldl. Для моделей 2x должен быть выключен DOWNSIZE. Для моделей 4х DOWNSIZE можно включить. При желании можете отключить всю группу 2nd UPSCALE 2xи апскейлить далее в сторонней программе или ограничиться первым апскейлом.
  8. SAVE SETTINGS эта схема позволяет сохранять исходные имена, что в дальнейшем упрощает организацию и отбор файлов.
    1. FILE NAME: что добавить к имени файла
    2. FOLDER NAME: в какую папку внутри папки ComfyUI/output сохранить изображение.
  9. Указываем количество изображений.
    1. При работе в пакетном режиме загрузки LOAD IMAGES BATCH указываем количество изображений в указанной папке справа от большой синей кнопки ▶️ Run.
    2. LOAD IMAGE SINGLE При одиночной загрузке указываем 1 справа от кнопки ▶️ Run.
  10. Запускаем схему, нажав кнопку ▶️ Run.

11. Про LORAs

12. Частые ошибки и проблемы:

⚠️ При запуске пакетной обработки (когда мы увеличиваем несколько изображений) нельзя вносить изменения в схему, пока все изображения не будут добавлены в очередь. Если вы начнете вносить изменения, то с этими незаконченными изменениями и будет запущена генерация. Особенно это критично при редактировании текстовых полей, например папки для сохранения результатов.

⚠️Первая генерация очень долгая, дольше чем указано в статье
Первый запуск всегда дольше, это нормально
⚠️ Не получается добавить большое количество изображений в очередь
Нажмите на лого Comfy в правом верхнем углу, SETTINGS > Queue Button Batch count limit  и установите максимальное количество изображений, которое можно за один раз добавить в очередь. У меня установлено 500.
⚠️Чрезмерно выраженные мимические морщины
Выключите или ослабьте первую LORA Lightx2v Wan2.2-T2V-A14B-4steps-lora-250928

⚠️ Чрезмерная детализация фона
Выключите или ослабьте первую LORA Lightx2v Wan2.2-T2V-A14B-4steps-lora-250928

⚠️Плохая детализация текстур, изображение потеряло резкость и мелкие детали
Отключите группу DENOISE IMAGE. 1x-NMKD-Jaywreck3-Lite удаляет артефакты и шум, но может "слизать" и убрать детали с изображения. Удаление шумов это вынужденная мера для облегчения приемки и работы стокеров. DENOISE IMAGE помогает убрать артефакты плохих исходников, но может и серьезно ухудшить результат увеличения хороших.
⚠️ Результат сильно отличается от исходника.
Понизьте denoise, понизьте shift, понизьте strength для LORA или выключите совсем.
⚠️ Долгая генерация, зависания. 
Попробуйте в батнике, через который запускаете Comfy UI прописать
--reserve-vram 1.5
⚠️ Вылетает при пакетной обработке после нескольких генераций. 
Если схема вылетает после обработки нескольких изображений, попробуйте заменить нод VAE Decode на VAE Decode (Tiled), он лежит рядом в группе UPSCALE SETTINGS.
Если вы нашли баг, у вас есть пожелания по улучшению схемы или какая-то проблема, не стесняйтесь написать мне об этом здесь или в чате канала.

13. Важные нюансы

⚠️Мой главный совет по поводу пакетной обработки: сначала протестируйте настройки (LORAs и их strength, denoise и shift) хотя бы на одном-двух изображениях, и только потом запускайте обработку для всей серии. Это сэкономит вам массу времени и нервов.
⚠️ Для второго апскейла можно подобрать другую более подходящую модель или использовать внешнюю программу вроде Topaz Gigapixel. Решение по умолчанию проще и быстрее.
⚠️ DENOIZE IMAGE может слизать текстуры, и если вы увеличиваете не для Adobe, и у вас хороший исходник без сетки и сильных шумов, то группу DENOIZE IMAGE можно отключить, результат будет лучше.

⚠️Если для вас, как и для меня, важно получить действительно качественную картинку без артефактов, обязательно делайте инпейнт после апскейла. Бывает полезно отдельно улучшить лица, руки, какие-то объекты или целых людей. Для этого у меня есть схема INPAINT NUNCHAKU FLUX AUTOMASK LOOP v2.0.0 MILAN🤘, которая может работать сразу с несколькими масками, обрабатывая их по очереди в цикле. Совсем скоро поделюсь похожим решением для инпейнта но с WAN2.2, которое мы тоже активно используем и тестируем последний месяц.

14. Как появилась схема?

Я много тестировал разные локальные решения для креативного апскейла видео. 
В процессе этих поисков, я наткнулся на видео-энхансер от Benji AI Playground* на WAN 2.2. Результат получился многообещающий, и я подумал, а почему бы не попробовать использовать модель WAN 2.2 для апскейла изображений, если она так славно работает с видео.
Взяв в качестве основы предыдущую схему для апскейла на Flux, я выкинул все лишнее,  подключил WAN2.2, и оптимизировал схему для комфортной и понятной работы.
Примерно месяц мы с коллегами тестировали эту схему в разных сценариях, и она показала себя как самое лучшее решение для креативного апскейла на данный момент.

15. Заключение

Подготовка таких материалов занимает много времени, поэтому мне было бы интересно узнать, какой формат вам больше нравится: длинные видео, короткие видео или такие длинные и подробные статьи. Напишите здесь или в чате telegram-канала ваши пожелания, будет очень полезно. Также буду рад если вы поделитесь скриншотами результатов и вашими рекомендациями по работе со схемой. Ваша обратная связь будет полезна для других пользователей.
Спасибо всем, кто уже поделился фидбеком и активно пользуется схемой на ежедневной основе, благодаря вам получилось довести схему до ее текущего состояния.

Всем успехов, и пусть ваши работы станут еще лучше!
Огромное вам спасибо! Этот текст бесценен, но мне также бывает полезно и видео.heart
Спасибо за предоставленный материал. Это очень полезно! Хотя я буквально пару недель назад начал знакомиться со Stable Diffusion и пока для меня всё это тёмный лес)
Мне неудобно задавать такой вопрос , но всё-таки задам. Подскажите пожалуйста , когда планируется выпуск решения для инпеинта на Wan 2.2 ? Я уже установил модель на Wan 2.2 для апскейла и думаю мне было бы логичнее и проще дождаться выхода и инпеинта на wan 2.2 , чтобы не ставить на Flux.
И ещё раз спасибо за ваши статьи.
milan, а как бесплатно работать в flow? Я вижу только подписку (первый беспалтный месяц не в счет).
А второй вопрос, а вы изучали вопрос лицензированияя картинок из нано банана? их можно на стоки?
Мне хочется уйти от миджорни, но не могу понять куда... боюсь не смогу разобраться в комфи (((( У вас нет случайно какого-нибудь гайда именно как начать (все настроить)? С нодовой системой я в принципе немного знакома, это не пугает, но наличие слишком большого числа разных схем приводит в уныние, мне б для начала парочку базовых чтобы начать и пробовать.... 
Mama14 Liza14, 1. https://labs.google/fx/tools/flow
Перейти на сайт и пользоваться. Там надо будет выбрать Images и модель Nana Banana Pro или Nana Banana. Может потребоваться обойти региональные ограничения, чтобы сайт открылся.
2. Можно, если не нарушать права третьих лиц.
3. Комфи использую в основном только для постобработки (апскейл и инпейнт), для генерации исходников практически не использую. Видеоуроки как пользоваться комфи есть на ютуб канале PIXAROMA: https://www.youtube.com/@pixaroma Также у него есть готовые сборки, которые я использую.
А неподскажите это схема для серии картинок из видео?
Andrei Remeslov,
из какого видео?
Subscription levels2

200

$2.76 per month
Ежемесячная поддержка автора
✅ Доступ ко всем материалам

400

$5.6 per month
🔥Ежемесячная суперподдержка автора
✅ Доступ ко всем материалам
Go up