Нейросетевые фотосессии Stable Diffusion

Автор user123, Май 09, 2025, 12:14

« назад - далее »
Нейросетевые фотосессии на Stable Diffusion сегодня организуются по‑этапному конвейеру: съёмка и подготовка датасета (20‑100 фото, 1024 × 1024), обучение LoRA‑адаптера (чаще всего через Kohya _ss GUI) и само «фотографирование» — генерация серий снимков на фотореалистичных чекпойнтах SDXL (Realistic Vision V6, Juggernaut XL v9, DreamShaper v8, RealVisXL v5, SDXL Turbo). Ключевыми тонкостями являются выбор варианта LoRA (LoRA‑LierLa, LoCon, LoHa, LoKr, QLoRA), настройка ранга/α, грамотные позитивные и негативные промпты, а также использование вспомогательных расширений (IP‑Adapter Face ID, ControlNet, ADetailer) для точной передачи лица. Ниже приведён полный развернутый отчёт, список типовых трудностей, чек‑лист и рекомендации новичку.

1. Что такое AI‑фотосессия в Stable Diffusion
Фотосессия — это серия портретов, сгенерированная ИИ из ваших фото, где стиль, реквизит и локации задаются текстом или референс‑изображениями.

Алгоритм SDXL служит базовой «камерой».

LoRA дообучается на ваших снимках и встраивается в модель в виде лёгких матриц, сохраняя портретное сходство и требуя лишь 0,2‑0,8 ГБ VRAM\

IP‑Adapter и ControlNet позволяют «подмешивать» лицо или позу как визуальные подсказки
  •  

    2. Этапы организации фотосессии
    • Планирование
      • Определяем темы (fashion, киберпанк, corporate headshot и т.д.)
      • Инструменты: mind-map, Pinterest board
    • Съёмка
      • 20-100 фото при равномерном освещении, разный ракурс, мимика, без лишних объектов
      • Инструменты: камера/смартфон, штатив
    • Курация датасета
      • Обрезаем до головы + плечи, приводим к 1024², переименовываем class_token_###
      • Инструменты: XnView, FastStone
    • Капшены
      • WD14/CLIP-теггер в Kohya _ss генерирует подписи
      • Инструменты: Kohya _ss caption
    • Обучение LoRA
      • Выбор базы SDXL, LoRA-тип (LoCon/LoHa), rank 8-16, α = rank / 2, lr 1e-4, 5-10 эпох
      • Инструменты: Kohya _ss GUI
    • Тест-рендер
      • CFG 5-7, sampler DPM++ SDE Karras, 30 steps; подбираем вес LoRA (0.6-1.0)
      • Инструменты: A1111/ComfyUI
    • Основная генерация
      • Батчем серии по темам; применяем Highres.fix или SDXL Turbo для realtime
      • Инструменты: SDXL Turbo, Hires.fix
    • Пост-обработка
      • ADetailer для лица, Upscale 4×UltraSharp, Retouch в Photoshop
      • Инструменты: Topaz, PS
    Эти параметры подтверждены практическими руководствами

    3. Популярные варианты LoRA-обучения
    • LoRA-LierLa (стандарт)
      • особенности: два low-rank слоя
      • когда использовать: общий случай
    • LoCon
      • особенности: добавляет Conv 3×3; лучше копирует детали
      • когда использовать: портрет, персонажи
    • LoHa
      • особенности: Hadamard-произведение; хорошо обобщает стиль
      • когда использовать: универсальный стиль
    • LoKr (LyCORIS)
      • особенности: Kronecker-факторизация; компактнее, но сложнее перенос
      • когда использовать: кросс-платформенные проекты
    • QLoRA/DyLoRA
      • особенности: квант.-или мульти-ранговые расширения
      • когда использовать: мобильное/ресурсное
    Подробные различия приведены в «Soulstealer's Handbook» 
    rtfm.sdark.ru

    Альтернативы
    • DreamBooth-LoRA (обучение сразу LoRA-слоёв внутри DreamBooth).
    • Textual Inversion/Hypernetwork — менее фотореалистично.
    • IP-Adapter Face ID v2 — адаптер, а не LoRA, но даёт сходство без обучения.
    •  

    4. Фотореалистичные чекпойнты 2024-25
    • Realistic Vision V6.0
      • Платформа: SD 1.5
      • Сильные стороны: тактильная кожа, CFG 1-2.5
      • Источник: Hugging Face
    • DreamShaper V8
      • Платформа: SD 1.5
      • Сильные стороны: универсальный «швейцарский нож»
      • Источник: Tensor Art
    • Juggernaut XL v9
      • Платформа: SDXL
      • Сильные стороны: кинематографическая контрастность
      • Источник: Hugging Face
    • RealVis XL v5
      • Платформа: SDXL merge
      • Сильные стороны: точная анатомия, lightning-вариант 4-6 steps
      • Источник: openlaboratory.ai
    • SDXL Turbo
      • Платформа: SDXL distilled
      • Сильные стороны: 1-4 steps realtime генерация
      • Источник: Hugging Face
    5. Трендовые темы и сюжеты
    • Киберпанк, неон-нуар — лидируют по промптам OpenArt.
    • Fashion editorial / look-book.
    • Корпоративный headshot (LinkedIn style).
    • Фэнтези-косплей и armor-design.
    • Cinematic stills (35 mm, f/1.4, Kodak Porta).
    • Lifestyle outdoor / hiking.

    6. Нюансы промптов для портретного сходства
    • Вызываем LoRA токеном: (<lora:my_face:0.8>).
    • Ключевые дескрипторы камеры: RAW photo, 85 mm lens, f/1.8, ISO 100.
    • Контролируем стиль токенами: cinematic lighting, photolab color grade.
    • Negative-prompt — отсекаем нежелательное: worst quality, extra fingers, cartoon Automagically by Segmind.
    • Вес LoRA: 0.6-0.9 для реализма; выше — риск «клонирования» лица.
    • CLIP-контекст ≤ 75 токенов: избегаем длинных «романов» — иначе игнорируется хвост запроса.
    • LoRA-миксы: несколько LoRA вызываются разными тегами, но суммарный вес ≤ 1.2, иначе цвета «плывут».
    •  

    7. Типичные проблемы и решения
    • Оверфит (восковое лицо)
      • Причина: слишком высокий rank/α, малый датасет
      • Решение: уменьшить rank до 8, добавить 10-15 рег. изображений
      • Комментарий эксперта: LoRA «запоминает» фото, вместо обобщения
      • Источник: GitHub
    • Подмена пола/возраста
      • Причина: класс-токен конфликтует (man vs woman)
      • Решение: использовать уникальный class как skn_person
      • Комментарий эксперта: уникальный токен исключит конкуренцию
    • Артефакты рук
      • Причина: CLIP недоучен на кисти
      • Решение: ADetailer + HanDiffuser или ControlNet Openpose
      • Комментарий эксперта: специализированный diff-рукав улучшает анатомию
      • Источник: CVF Open Access
    • Выгорание VRAM
      • Причина: 768×768, batch 4 на 8 GB
      • Решение: выбор ––mem_eff в Kohya, grad accum.
      • Комментарий эксперта: LoRA-обучение линейно по batch × resolution
      • Источник: Milvus Blog
    • Отсутствие сходства при 0.5 весе
      • Причина: слишком агрессивный negative или низкий CFG
      • Решение: повысить вес до 0.7, CFG → 6
      • Комментарий эксперта: баланс контента и стиля — эмпирический
    • «Пластиковая» кожа
      • Причина: VAE baked-in не совпадает
      • Решение: подгрузить sd-vae-ft-mse, Hires.fix 0.2
      • Комментарий эксперта: Realistic Vision рекомендует внешний VAE
      • Источник: Hugging Face
    • Долгая генерация
      • Причина: 50-75 steps на SDXL
      • Решение: использовать SDXL Turbo или Lightning-чекпойнты
      • Комментарий эксперта: 4-6 steps почти без потери качества
      • Источники: Hugging Face, openlaboratory.ai
    8. Пошаговый чек-лист
    • Соберите план тем и референсы.
    • Сделайте 40-60 снимков лица + 10 полного роста.
    • Обрежьте, очистите EXIF, приведите к 1024².
    • Сгенерируйте подписи WD14, поправьте вручную.
    • Запустите Kohya _ss, выберите LoCon, rank 8, α 4, lr 1e-4, epoch = 5.
    • После обучения протестируйте вес 0.6/0.8/1.0.
    • Выберите SDXL-чекпойнт (RealVis XL Lightning).
    • Сформируйте промпт: (my_face:0.8) RAW photo, ... + negative.
    • Сгенерируйте 32-64 кадров; отберите удачные.
    • Проведите пост-обработку и экспорт.

    9. Рекомендации новичку
    • Начните с Kohya _ss GUI — визуально и кроссплатформенно.
    • Берите LoCon rank 8 — оптимум баланса размер/качество.
    • Снимайте при дневном свете без макияжа и очков.
    • Не смешивайте более одной LoRA, пока не освоитесь.
    • Держите negative-prompt коротким; сначала исправьте базовые дефекты.
    • Используйте SDXL Turbo для черновых идей — это мгновенно.
    • Сохраняйте seed успешных кадров для последующей правки.
    • Регулярно делайте «checkpoint merges» копий проекта.
    • Изучайте чужие промпты на CivitAI/OpenArt и адаптируйте.
    • Не публикуйте портреты без согласия модели — уважайте право на изображение.
    •