CogVideo

Автор user123, Май 14, 2025, 17:43

« назад - далее »
CogVideo — это одна из первых открытых моделей, способных генерировать видео на основе текстовых промптов или изображений. Она активно используется в локальных средах, особенно через интерфейсы вроде ComfyUI, что делает её популярной среди пользователей, предпочитающих работать с ИИ без использования онлайн-сервисов.

https://github.com/THUDM/CogVideo
https://github.com/kijai/ComfyUI-CogVideoXWrapper

  • 1. Технические особенности и требования
    • Аппаратные требования:
      • GPU: Рекомендуется видеокарта с минимум 16 ГБ VRAM (например, RTX 3090, 4090).
      • На слабых GPU (8–12 ГБ) возможна работа только с урезанными версиями модели (например, GGUF).
      • Для работы с полной моделью CogVideo 5B требуется минимум 24 ГБ видеопамяти.
    • Программная среда:
      • Linux рекомендуется как основная ОС для установки.
      • Поддержка Windows есть, но считается экспериментальной и требует большего количества манипуляций.
      • Требуется установленный Python (обычно 3.10), PyTorch, CUDA Toolkit, а также зависимости из requirements.txt.
  • 2. Установка и интеграция в ComfyUI
    CogVideo чаще всего используется через ComfyUI с помощью специального плагина: 
    ComfyUI-CogVideoXWrapper от kijai

    • Клонирование репозитория CogVideo
    • Установка зависимостей (pip install -r requirements.txt)
    • Загрузка весов модели (CogVideoSVD, CogVideoX-5B, GGUF-версии)
    • Добавление ноды CogVideo в ComfyUI
    • Использование готовых воркфлоу (часто берутся с Boosty, CivitAI, GitHub)

    Пользователи сообщают, что GGUF-версия модели позволяет запускать CogVideo даже на 6–8 ГБ VRAM, но с потерей качества и детализации.

  • 3. Режимы работы CogVideo
    • Text-to-Video (txt2vid):
      • Базовый режим, где задаётся текстовое описание сценария.
      • Может быть сложно контролируемым без дополнительных методов (ControlNet, LoRA).
    • Image-to-Video (img2vid):
      • Входное изображение + промпт → последовательность кадров.
      • Позволяет сохранить стиль и композицию исходного кадра.
      • Часто используется для создания анимированных эффектов.
    • Video-to-Video (v2v):
      • Видео + промпт → изменённое видео.
      • Меньше распространён, но активно тестировался пользователями.
  • 4. Производительность и скорость генерации
    • CogVideo 5B
      • Кадры: 48 кадров
      • Время генерации (примерно): до 1 часа
      • Примечания: Очень высокое качество, но требует мощного железа
    • CogVideo GGUF
      • Кадры: 24 кадра
      • Время генерации (примерно): ~5–10 минут
      • Примечания: Сниженное качество, зато работает на слабых GPU
    • CogVideo 1.5
      • Кадры: 33 кадра
      • Время генерации (примерно): ~1.5 минуты на 4090
      • Примечания: Баланс между качеством и скоростью
    🕒 Замечено: при повторной генерации без изменения параметров время увеличивается (возможно, связано с кэшированием и перераспределением памяти).

  • 5. Качество генерации и проблемы
    • Преимущества:
      • Хорошее восприятие пространства и движения.
      • Относительно точное выполнение промптов.
      • Возможность тонкой настройки через ControlNet, LoRA, VAE.
    • Недостатки:
      • Модель может "галлюцинировать", особенно в динамике.
      • Нестабильная работа на слабых GPU.
      • Проблемы с повторяемостью результатов.
      • Высокая нагрузка на VRAM (до 20+ ГБ).
    ЦитироватьCogVideo 1.5 хуже слушается промпта по части движения камеры. Старая модель v1 почти всегда двигала камеру куда напишешь.

  • 6. Популярные проблемы и решения
    • Ошибка tokenize при запуске воркфлоу
      • Решение: Перезагрузка ноды CogvideoWrapper, проверка актуальности версии
    • Модель не запускается, ошибка декодера
      • Решение: Проверить корректность загрузки весов и пути в конфиге
    • Долгая генерация после первого запуска
      • Решение: Перезагрузка ComfyUI, очистка кэша
    • Не хватает VRAM
      • Решение: Использовать GGUF-версию модели или снизить количество кадров
    • Промпт игнорируется
      • Решение: Добавить ключевые слова в начало промпта, использовать positive prompt weight
  • 7. Альтернативы и сравнения
    • LTX Video
      • Очень быстрая (~в 10 раз быстрее), низкое потребление VRAM
      • Сравнение: Лучше подходит для слабых GPU, но пока менее точная
    • Pyramid Flow
      • Интересная динамика, но плохо слушается промпты
      • Сравнение: Более экспериментальная, чем CogVideo
    • Mochi
      • Высокое качество, но закрытая модель
      • Сравнение: Пока недоступна для локальной генерации
    • AnimateDiff
      • Интегрируется в WebUI, подходит для коротких анимаций
      • Сравнение: Более удобен, но не такой мощный, как CogVideo
    • Kling AI
      • Онлайн-сервис, хорошее качество, но дорого и ограничено
      • Сравнение: Более стабильный, но не локальный вариант
  • 8. Примеры использования и применения
    • Создание рекламных роликов
    • Генерация контента для TikTok/Instagram
    • Анимация персонажей на основе картинок
    • Экспериментальное кино и искусство
    • Образование и туториалы

    ЦитироватьCogVideo мне больше зашёл. Иногда можно что-то дельное сгенерировать.
    ЦитироватьCogVideo 1.5 потестил. Довольно неплохо слушается промпта.


    CogVideo остаётся одной из самых интересных и функциональных открытых моделей для локальной видеогенерации. Несмотря на высокие аппаратные требования, она предлагает хороший баланс между качеством и контрольностью.

    Однако, с появлением новых моделей, таких как LTX Video и Mochi, CogVideo начинает терять свою лидирующую позицию, особенно в плане производительности и простоты использования.
  •  

✅ 1. Получить готовый воркфлоу для CogVideo в ComfyUI
  • Источники воркфлоу:
    • ComfyUI-CogVideoXWrapper — содержит примеры воркфлоу в папке Example
    • CivitAI — несколько воркфлоу, могут быть устаревшими из-за частых обновлений нодов
    • GitHub пользователя kijai — рабочие воркфлоу на его странице или через Boosty
  • Важно: используйте актуальную версию нодов — старые воркфлоу могут не работать из-за изменений API и структуры моделей
  • Пример содержания воркфлоу:
    • CogVideo GGUF Model Loader (для слабых GPU)
    • CLIP Text Encode (Positive/Negative prompt)
    • CogVideo Sampler (настройка количества кадров, шагов, семплинга)
    • Image Scale To Width/Height (для корректного формата видео)
    • Save Video Node
🔧 2. Как оптимизировать генерацию под вашу видеокарту
  • Аппаратные ограничения:
    • RTX 3060 / 4060 / 3090 / 4090 — наиболее популярные
    • VRAM:
      • Полная модель CogVideo 5B — не менее 24 ГБ
      • GGUF-версия — 8–12 ГБ (с потерей качества)
  • Оптимизация:
    • Выбор модели:
      • CogVideo 5B — высокое качество, требует мощной видеокарты
      • GGUF-версия — компактная, подходит для слабых GPU
    • Параметры генерации:
      • Количество кадров: 16–24 вместо 48
      • Шаги генерации: 25–50 вместо 100+
      • Разрешение: 512×768 вместо 1024×1024
    • Работа с памятью:
      • После генерации используйте иконку «пылесос» в ComfyUI для очистки VRAM
      • Отключите превью в реальном времени при недостатке памяти
    • Дополнительные инструменты:
      • TensorRT (через nvidia-trt) — ускорение на слабых картах
      • FP8 / BF16 вместо FP32 — снижение потребления VRAM
🎬 3. Реальные примеры генерации и промптов
  • Примеры промптов:
    • A forest clearing at dawn, with rays of sunlight filtering through the trees
    • A cozy cottage in a snowy village, smoke rising from the chimney
    • An abstract visualization of cosmic energy in vibrant colors
    • A futuristic cityscape with flying cars and neon lights
    • A close-up of a dragon's eye glowing in the dark
  • Примеры генерации:
    • Видео с движением камеры: "Zoom into a mountain peak at sunrise" — CogVideo 1.5 лучше справляется, чем более новые версии
    • Сцены с объектами в движении: "A cat running through a field of flowers" — возможны артефакты на краях объектов
    • Анимация статичных картинок (img2video): загрузка изображения + текст → динамика
ЦитироватьCogVideo мне больше зашёл. Иногда можно что-то дельное сгенерировать.
ЦитироватьCogVideo 1.5 потестил. Довольно неплохо слушается промпта.
  •