VEnhancer: Генеративное улучшение синтезированного видео.
VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.
VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.
Несколько дней назад VEnhancer получил обновление:
Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями);
Быстрая выборка с 15 шагами без потери качества (путем установки —solver_mode ’fast’ в команде скрипта);
Использование временного VAE для уменьшения мерцания.
Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.
Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.
Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI .
Установка:
git clone
cd VEnhancer
conda create -n venhancer python=
conda activate venhancer
pip install torch== torchvision== torchaudio==
pip install -r
Установка пакета ffmpeg:
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y
Инференс с помощью CLI:
bash
Инференс с помощью GradioUI:
python
Страница проекта
Arxiv
Модель