WanGP (Wan2GP): Подробный анализ программы для генерации видео на видеокартах

Автор Master_Yoda, Май 02, 2025, 15:04

« назад - далее »
WanGP (Wan2GP): Подробный анализ программы для генерации видео на слабых видеокартах

WanGP, также известная как Wan2GP, представляет собой оптимизированную версию модели Wan 2.1 от Alibaba, разработанную специально для работы на видеокартах с ограниченным объемом видеопамяти. Данное исследование предоставляет исчерпывающий анализ функциональных возможностей программы, подробный разбор настроек и рекомендации по оптимальной конфигурации для видеокарты NVIDIA RTX 3060.



Общий обзор WanGP 
  • Назначение: запуск продвинутых моделей генерации видео на «бедных GPU» (4–8 ГБ VRAM) 
  • Происхождение: форк Wan 2.1 от Alibaba (Wan AI), оптимизированный разработчиком DeepBeepMeep 
  • Цель: сохранить качество выходного видео до 20 с при минимальных аппаратных ресурсах 


Основные функции и возможности WanGP

Методы генерации видео 
  • Text‑to‑Video (T2V) 
    • Создание видео на основе текстового описания 
    • Поддержка сложных подсказок и множественных текстовых промптов 
  • Image‑to‑Video (I2V) 
    • Преобразование статического изображения в анимированное видео 
    • Сохранение стиля исходного изображения и контроль направления движения 
  • Motion Control 
    • Автоматическое распознавание движений человека 
    • Применение захваченных движений к генерируемому видео 
    • Интеграция собственных 3D‑объектов или персонажей 
  • Видеоредактирование 
    • Depth Transfer (глубинный перенос) 
    • Видео‑инпейнтинг (заполнение отсутствующих частей) 
    • Встраивание объектов в видеоряд 
Технические возможности 
  • Sliding Window: генерация неограниченной длины видео фрагментами с плавными переходами 
  • Повышение разрешения: временное и пространственное улучшение качества и детализации кадров 
  • Система очередей: планирование и приоритезация задач без постоянного контроля 
  • Gradio‑интерфейс: удобная веб‑панель для настройки и мониторинга процесса генерации 
  • RIFLEx: создание роликов свыше 5 с без артефактных повторений, улучшенная связность кадров 
  • Поддержка Loras: подключение предобученных стилистических моделей для кастомизации 


Рекомендации по настройке на NVIDIA RTX 3060 
  • Установить batch size = 1 и шаги генерации = 8 для оптимального баланса скорости и качества 
  • Включить TeaCache‑аналог для WanGP, чтобы снизить нагрузку на VRAM 
  • Использовать RIFLEx для роликов свыше 5 секунд 
  • Подгружать Loras по необходимости для стилистических эффектов 
  •  

Подробный разбор настроек и параметров генерации видео



Основные настройки модели 
  • Выбор модели (model_filename) 
    • 1.3B модель – лёгкая версия, требует минимум 8 ГБ VRAM, подходит для базовой генерации 
    • 14B модель – полная версия, требует около 12 ГБ VRAM, обеспечивает более высокое качество 
    • 14B квантизированная модель (8‑bit) – оптимизированная версия, требует 8–12 ГБ VRAM 

  • Профили оптимизации памяти (mmgp) 
    • HighRAM_HighVRAM (профиль 1) – 48+ ГБ RAM, 24+ ГБ VRAM; максимальная скорость для RTX 3090/4090 
    • HighRAM_LowVRAM (профиль 2) – 48+ ГБ RAM, 12+ ГБ VRAM; для RTX 3070/3080/4070/4080 
    • LowRAM_HighVRAM (профиль 3) – 32+ ГБ RAM, 24+ ГБ VRAM; для систем с ограниченной RAM 
    • LowRAM_LowVRAM (профиль 4) – 32+ ГБ RAM, 12+ ГБ VRAM; для более длительных видео 
    • VerylowRAM_LowVRAM (профиль 5) – 24+ ГБ RAM, 10+ ГБ VRAM; медленный режим для слабых систем 

  • Режимы внимания (Attention Modes) 
    • Sage Attention – ускорение на 30% по сравнению со стандартным вниманием 
    • Flash Attention – альтернативный механизм для повышения производительности 


Параметры генерации видео

Текстовые подсказки (prompts) 
  • Описание желаемого видеоконтента на естественном языке 
  • Возможность использования нескольких подсказок одновременно 
  • Поддержка весов и специальных параметров для точной настройки 

Размеры видео (width, height) 
  • Стандартное разрешение 480p (базовая генерация) 
  • Другие разрешения – требуют больше VRAM 
  • Поддержка стандартных соотношений сторон 

Длительность видео (video_length) 
  • Стандартная длина 5 с (≈76–80 кадров) 
  • Расширенная длина до 8 с (128 кадров) – требует 12+ ГБ VRAM 
  • До 20 с с использованием Sliding Window 

Частота кадров (fps) 
  • Стандарт: 16 fps 
  • Настройка по требуемой плавности и качеству 

Параметры контроля движения 
  • keep_frames_video_guide – число сохраняемых кадров из видео-руководства 
  • video_guide – исходное видео для анализа движений 
  • video_mask – маска области применения движений 

Параметры Image-to-Video 
  • image_refs – исходные изображения для анимации 
  • image_prompt_type – тип подсказки для характера движения 
  • image_start – начальное состояние генерации 
  • remove_background_image_ref – удаление фона из эталонных изображений 

Дополнительные параметры 
  • guidance_scale – сила влияния подсказки (обычно 7.5–15) 
  • num_inference_steps – шаги диффузии (качество vs время) 
  • seed – фиксированное значение для воспроизводимости 



Управление очередью генерации 
  • add_video_task – добавить задачу в очередь 
  • move_up / move_down – изменить приоритет задачи 
  • remove_task – удалить задачу из очереди 
  • Автосохранение – экспорт очереди в ZIP и восстановление после перезапуска 
  •  

Оптимальная настройка WanGP для видеокарты NVIDIA RTX 3060

NVIDIA RTX 3060 оснащена 12 ГБ видеопамяти GDDR6, что делает её достаточно мощной для запуска WanGP с продуманными оптимизациями. Ниже — рекомендации по оптимальной конфигурации.



Выбор профиля оптимизации памяти 
  • 48+ ГБ RAM 
    • Профиль 2 (HighRAM_LowVRAM) 
    • Команда: python gradio_app.py --profile 2 
    • Баланс скорости и потребления VRAM 
  • 32+ ГБ RAM 
    • Профиль 4 (LowRAM_LowVRAM) 
    • Команда: python gradio_app.py --profile 4 
    • Подходит для длинных видео 
  • 24–32 ГБ RAM 
    • Профиль 5 (VerylowRAM_LowVRAM) 
    • Команда: python gradio_app.py --profile 5 
    • Медленнее, но минимальное потребление памяти 


Выбор и настройка модели 
  • Максимальное качество 
    • Квантизированная 14B модель (8‑bit) 
    • Sage Attention для ускорения 
    • Разрешение 480p (704×396 или 640×360) 
  • Максимальная скорость 
    • Модель 1.3B 
    • Flash Attention (если поддерживается) 
    • Разрешение до 512p–576p при сокращённой длительности 


Рекомендуемые параметры генерации 

5‑секундные видео (≈80 кадров) 
  • Разрешение: 480p (704×396) 
  • Шаги диффузии: 30–50 
  • guidance_scale: 9.0–12.0 
  • Время: ~15–20 мин 

8‑секундные видео (≈128 кадров) 
  • Разрешение: 480p (704×396) 
  • Шаги: 25–40 
  • guidance_scale: 8.0–10.0 
  • Время: ~25–35 мин 

Продолжительные видео (до 20 с) 
  • Sliding Window 
  • Разрешение: 480p 
  • Шаги: 20–30 
  • guidance_scale: 7.5–9.0 
  • Время: ~40–60 мин 



Дополнительные оптимизации для RTX 3060 
  • Процесс генерации 
    • Закрыть другие GPU‑приложения 
    • Отключить эффекты рабочего стола (Aero, прозрачность) 
    • Режим «Высокая производительность» в драйвере NVIDIA 
  • Система 
    • Страничный файл на SSD (≥ 32 ГБ) 
    • Отключить фоновые процессы и антивирус 
    • Обеспечить хорошее охлаждение GPU 
  • Квантизация 
    • 8‑bit для 14B модели 
    • Не использовать дополнительные методы сжатия (TeaCache) 
  • Производительность 
    • Асинхронные передачи данных 
    • Компиляция вычислений 
    • Последовательная генерация для длинных видео 


Заключение 
WanGP делает генерацию видео доступной на потребительских GPU. При правильной настройке на RTX 3060 можно создавать ролики до 20 с в 480p с высоким качеством и приемлемым временем генерации. 
  •  

Анализ моделей для генерации видео в системе WanGP v4.4

На представленном скриншоте интерфейса программы WanGP v4.4 отображено выпадающее меню с различными моделями для генерации видео на базе Wan2.1. Рассмотрим детально каждую модель, её особенности и сферы применения.



Основные модели Wan2.1

Wan2.1 image2video 480p 
  • Описание: стандартная модель преобразования изображения в видео с разрешением 480p 
  • Достоинства: 
    • Низкие требования к видеопамяти 
    • Быстрая генерация по сравнению с версиями более высокого разрешения 
    • Поддерживает режим внимания auto/sage2 и квантизацию Int8 
  • Недостатки: 
    • Ограниченное разрешение 480p 
    • Меньшая детализация по сравнению с 720p моделями 
  • Применимость: быстрое прототипирование, тестирование идей, устройства с ограниченными ресурсами 
Wan2.1 text2video 1.3B 
  • Описание: модель генерации видео из текста с 1.3 млрд параметров 
  • Достоинства: 
    • Требует всего 8.19 ГБ VRAM 
    • Совместима с большинством потребительских GPU 
    • Генерирует 5 с видео 480p на RTX 4090 за ~4 мин 
    • Поддерживает английский и китайский текст 
  • Недостатки: 
    • Ограниченная сложность видео из‑за меньшего числа параметров 
    • Только разрешение 480p 
  • Применимость: GPU среднего уровня, короткие видеоклипы по тексту без больших затрат 
Wan2.1 image2video 720p 
  • Описание: версия преобразования изображения в видео с HD‑разрешением 720p и 14 млрд параметров 
  • Достоинства: 
    • Высокое качество генерации с HD разрешением 
    • Превосходит открытые и закрытые альтернативы 
    • Лучшая детализация и визуальное качество 
  • Недостатки: 
    • Высокие требования к VRAM 
    • Длительное время генерации 
  • Применимость: профессиональные задачи, контент для YouTube, TikTok и др. с высоким разрешением 
Wan2.1 text2video 14B 
  • Описание: мощная модель текста в видео с 14 млрд параметров 
  • Достоинства: 
    • Поддержка 480p и 720p 
    • Лучшее качество среди открытых моделей 
    • Исключительные возможности для динамики 
    • Генерация китайского и английского текста в видео 
  • Недостатки: 
    • Требует GPU с большим объёмом памяти 
    • Значительное время генерации 
  • Применимость: высококачественные ролики с комплексными сценами при достаточных ресурсах 


Специализированные модели

Vace ControlNet 1.3B 
  • Описание: Video All‑in‑one Creation and Editing с ControlNet для точного управления 
  • Достоинства: 
    • Reference‑to‑video, video‑to‑video, masked video editing 
    • Универсальность 
    • Умеренные требования (1.3 B) 
  • Недостатки: 
    • Ограниченная точность по сравнению с крупными моделями 
    • Макс. длительность 129 кадров за проход 
  • Применимость: редактирование существующих видео, анимация персонажей, короткие сцены с контролем движения 
  •  

Fun InP и другие специализированные модели в WanGP v4.4



Fun InP image2video 1.3B 
  • Описание: модель интерполяции кадров с 1.3 млрд параметров 
  • Достоинства: 
    • Создаёт плавные переходы между начальным и конечным кадрами 
    • Доступна для большинства GPU благодаря компактному размеру 
    • Подходит для создания анимированных переходов 
  • Недостатки: 
    • Может наблюдаться затемнение конечного кадра 
    • Меньшая детализация по сравнению с 14B версией 
  • Применимость: простые анимации и переходы между известными кадрами 
Fun InP image2video 14B 
  • Описание: расширенная модель интерполяции кадров с 14 млрд параметров 
  • Достоинства: 
    • Создаёт более плавные и реалистичные переходы 
    • Высокое качество промежуточных кадров 
    • Лучшая согласованность и естественность движения 
  • Недостатки: 
    • Высокие требования к вычислительным ресурсам 
    • Более длительное время обработки 
  • Применимость: профессиональные задачи, качественная интерполяция между кадрами 
ReCamMaster 1.3B 
  • Описание: модель для изменения угла камеры в существующих видео 
  • Достоинства: 
    • Поддерживает 10 базовых траекторий (пан, tilt, zoom и др.) 
    • Сохраняет содержание оригинального видео 
    • Подходит для стабилизации, суперразрешения, расширения кадра 
  • Недостатки: 
    • Узкая специализация 
    • Может искажать сложные движения объектов 
  • Применимость: пост‑обработка: изменение ракурса, стабилизация, эффект движения камеры 
Wan2.1 FLF2V 720p 
  • Описание: First-Last-Frame to Video модель с разрешением 720p 
  • Достоинства: 
    • Генерирует HD‑видео, соединяя первый и последний кадр 
    • Высокое качество и чёткость эффектов 
    • Поддержка управления через текстовые подсказки 
  • Недостатки: 
    • Требует 14 млрд параметров, нагрузка на GPU высокая 
    • Не всегда сохраняет детали объектов корректно 
  • Применимость: создание переходов между сценами, анимация статичных изображений 
SkyReels2 Diffusion Forcing 
  • Описание: серия моделей для длинных видео (28–30 с) с техникой «diffusion forcing» 
  • Достоинства: 
    • Генерация продолжительных роликов без «заморозки» кадров 
    • Варианты по производительности и качеству 
    • Возможность расширения существующих видео 
  • Недостатки: 
    • 1.3B версия ограничена детализацией 
    • 14B версии требуют значительных ресурсов 
  • Применимость: 
    • 1.3B – слабые GPU, длинные видео низкого качества 
    • 540p 14B – компромисс качество/скорость 
    • 720p 14B – качественные длинные видео 
Wan2.1 Phantom 1.3B 
  • Описание: модель для согласованности объектов и персонажей в видео 
  • Достоинства: 
    • Сохраняет внешний вид персонажей на протяжении всего видео 
    • Поддерживает множественные референсные изображения 
    • Работает на большинстве потребительских GPU 
  • Недостатки: 
    • Ограниченная сложность взаимодействий 
    • Версия 1.3B уступает в детализации 
  • Применимость: видео с персонажами, где важна сохранность их стиля и внешности 


Заключение 
  • Выбор модели зависит от ресурсов, требуемого качества, задачи и длительности видео 
  • 1.3B модели – для средних GPU и простых задач 
  • 14B модели – для высококачественных профессиональных проектов 
  • Специализированные модели – для конкретных эффектов: интерполяция, контроль камеры, длинные ролики 
  •  
    Пользователи, которые поблагодарили этот пост: Dimetry

Доброго времени суток! Установил себе WanGP v7.0 by DeepBeepMeep. Протестировал. У меня видеокарта RTX 3060 12Gb, поэтому и решил здесь написать. Задача была из картинки размером 832х1216 сделать видео на 5 секунд. Забегая вперёд скажу, что видео получилось размером 528х768. Но в Topaz Video AI за минуту размер я удвоил. Вот параметры генерации и Prompt: {"prompt": "An enchanting fairytale castle in the background: a captivating green-haired woman in a bright red bodysuit stands majestically, gracefully raising her arms and adjusting her hair. She wears exquisite jewelry - a delicate necklace and belt - to complement her sparkling outfit. Her gentle yet confident expression captivates the viewer. Bathed in the reflections of sunlight filtering through the lush foliage, she embodies warmth and vitality. Behind her, a fantastical castle rises from a pristine lake, surrounded by green vegetation that sways in the breeze. Distant mountains and whimsical pink trees add depth, enhancing the fairytale quality of this idyllic setting. This dynamic full-length video is shot from a low angle to emphasize her commanding presence.", "negative_prompt": "", "resolution": "480x832", "video_length": 81, "seed": 41392033, "num_inference_steps": 30, "guidance_scale": 5, "flow_shift": 7, "sample_solver": "", "repeat_generation": 1, "multi_prompts_gen_type": 0, "multi_images_gen_type": 0, "skip_steps_cache_type": "", "skip_steps_multiplier": 1.5, "skip_steps_start_step_perc": 20, "activated_loras": [], "loras_multipliers": "", "image_prompt_type": "S", "control_net_weight": 1, "control_net_weight2": 1, "audio_prompt_type": "", "speakers_locations": "0:45 55:100", "sliding_window_size": 129, "sliding_window_overlap": 5, "sliding_window_overlap_noise": 0, "sliding_window_discard_last_frames": 0, "temporal_upsampling": "", "spatial_upsampling": "", "film_grain_intensity": 0, "film_grain_saturation": 0.5, "RIFLEx_setting": 0, "NAG_scale": 1, "NAG_tau": 3.5, "NAG_alpha": 0.5, "slg_switch": 0, "slg_start_perc": 10, "slg_end_perc": 90, "apg_switch": 0, "cfg_star_switch": 0, "cfg_zero_step": -1, "model_type": "i2v", "model_filename": "ckpts/wan2.1_image2video_480p_14B_quanto_mbf16_int8.safetensors", "type": "WanGP v7.0 by DeepBeepMeep - Wan2.1 image2video 480p 14B", "settings_version": 2.22, "generation_time": 3984} Как видно, время генерации перевалило за 1 час. Это очень много, но при этом была не большая нагрузка на видеокарту, до 50% на её память и до 20% на графический процессор, так же  и на центральный процессор нагрузка была до 40%. А вот на оперативную память нагрузка была полной до 96% Есть скрины, прилагаю.
  •  

у меня аналогичная карта , но я отказался от локальных видео-генерации. ждать 1 час ради генерации 1 секунду в приличном качестве - это просто издевательство над компьютером )))) сейчас экспериментирую на арендованных серверах
  •