Теперь вы можете генерировать видео искусственного интеллекта только с 6 ГБ VRAM

FramePack делает высококачественную диффузию видео на удивление легкой.

Генерация видео с использованием искусственного интеллекта может вскоре не ограничиваться дорогими подписками или мощных серверов. Благодаря недавнему прорыву, даже игровой ноутбук может генерировать полные видео с использованием искусственного интеллекта.

Прорыв — это работа Lvmin Jang от Github и Manish Agraraval из Стэнфордского университета. Дуэт разработал Framepack — Архитектура Нейронная сеть, которая обеспечивает высококачественное диффузионное видео с VRAM всего 6 ГБS Это значительное достижение, особенно учитывая, что размер модели не имеет малого 13 миллиардов параметров, которые позволяют ей генерировать полные 60-секундные клипы при 30 кадров в секунду, используя только графический процессор среднего класса.

Ключ заключается в том, как работает FramePack. Традиционные модели создания видео полагаются на предыдущие сгенерированные кадры, чтобы предсказать следующую. Когда видео увеличивается, «контекст времени» также увеличивается-количество прошлых кадров, которые модель должна учитывать, ведущие к более высоким требованиям к памяти. Вот почему большинству моделей требуется минимум 12 ГБ VRAM для эффективной работы.

Framepack радикально меняет этот подход. Вместо увеличения памяти в более длинных клипах он сжимает входные рамы в зависимости от их важности в контексте фиксированной длины, сохраняя при этом компактность и стойкость памяти независимо от продолжительности видео.

Это инновация позволяет модели обрабатывать тысячи кадров, даже с большими структурами, графическими процессорами класса ноутбука. Это также позволяет размерам партий, сравнимых с теми, которые используются в моделях диффузии изображения.

Но FramePack не только снижает потребности в памяти, но и решает проблему с дрейфом — общая проблема, когда качество видео со временем ухудшается. Используя модели интеллектуального сжатия и методы планирования, FramePack способствует поддержанию визуальной последовательности от начала до конца.

Кроме того, модель включает в себя удобный графический интерфейс пользователя. Пользователи могут загружать изображения, вводить текстовые подсказки и показывать реальный предварительный просмотр при генерации кадров. При RTX 4090 Оптимизированные скорости генерации достигают до 0,6 кадров в секундуS, конечно же, производительность ниже для более слабых графических процессоров, но даже RTX 3060 может справиться с этим.

В настоящее время FramePack поддерживает RTX 30, 40 графических процессоров и новую серию NVIDIA, при условии, что они поддерживают форматы данных FP16 и BF16. До сих пор нет подтвержденной поддержки для графических процессоров AMD и Intel, Но модель работает в ряде операционных систем, включая Linux.

Полные данные модели и исходный код доступны в GitHub.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх