Tencer Voyager Voyager превращает изображение в 3D-световой

Во вторник, 2 сентября, Tencent представила новую модель Hunyuanworld Voyager I, которая может создать постоянные 3D-визуальные эффекты с одного изображения.

Пользователи также могут управлять камерой для изучения сгенерированных миров. Модель одновременно генерирует информацию о RGB-Video и глубине, которая позволяет прямой изменение деталей без необходимости традиционных инструментов моделирования.

Тем не менее, не ожидайте, что Hunyuanworld Voyager скоро станет полной альтернативой традиционным видеоиграм. Сгенерированные результаты не являются реальными 3D -моделями, но они имеют аналогичный эффект.

В частности, искусственный интеллект генерирует 2D-видея, которые поддерживают пространственную последовательность, как будто камера фактически движется в трехмерном пространстве. Каждое поколение производит 49 кадров, каждый из которых длится около 2 секунд.

Представители Tencent отмечают, что несколько видео могут быть объединены вместе в течение нескольких минут. Объекты остаются в том же относительном положении, что и камера движется вокруг них, и перспектива изменяется правильно, как и ожидалось в реальной 3D среде.

Конечным результатом является видео с глубинными карточками, а не реальными 3D -моделями, но может быть преобразовано в облака Triise из точек реконструкции. На входе система принимает от пользователя изображение и установленную траекторию движения камеры.

Пользователи могут выбрать, как перемещать камеру и вперед, влево и вправо, или повернуть, используя интерфейс. Hunyuanworld-Voyager объединяет изображение и глубину с глобальными денежными средствами для создания последовательных видео, которые показывают движение камеры, выбранное пользователем.

Ключевым ограничением для всех моделей искусственного интеллекта, основанных на архитектуре трансформатора, является то, что они по существу имитируют модели, найденные в учебных наборах данных, что ограничивает их способность использовать эти модели в новых контекстах, которые не были доступны в учебном наборе.

Чтобы обучить Hunyuanworld-Voyager, разработчики использовали более 100 000 видео, в том числе сцены, созданные с помощью нереального двигателя. Таким образом, модель научилась подражать движению камеры в 3D -игровой среде.

Большинство видеогенераторов на основе искусственного интеллекта, таких как SORA, генерируют персонал последовательно без отслеживания или поддержания пространственной когерентности. Между тем, Hunyuanworld-Voyager обучается распознавать и воспроизводить модели пространственной когерентности, но с добавлением геометрической обратной связи.

В то время как система генерирует каждый кадр, она преобразует вход в 3D -точки, затем разрабатывает эти точки обратно в 2D для использования в будущих кадрах. Этот метод заставляет модель сравнить изученные шаблоны с геометрически совместимыми проекциями собственных предыдущих входных данных. Хотя это обеспечивает значительно лучшую пространственную совместимость, чем традиционные видео генераторы, это все еще является сравнением шаблонов, основанных на геометрических ограничениях, а не на реальном моделировании в трехмерной среде.

Это объясняет, почему модель может поддерживать последовательность в течение нескольких минут, но это трудно, когда камера полностью вращается до 360 °. Снятый за кадром, небольшие ошибки накапливаются в результате сопоставления шаблонов, в то время как геометрические ограничения больше не теряют их пространственную последовательность.

Процесс создания мира в Hunyuanworld-Voyager/Tencent

Технический отчет Tencent отмечает, что система использует две ключевые части, которые работают вместе. Hunyuanworld-Voyager одновременно генерирует информацию о цветном видео и глубине. Так, например, если в видео есть дерево, информация о глубине точно определяет, насколько далеко дерево. Во -вторых, модель использует то, что Tencent называет «глобальным кэшем» — растущей коллекцией 3D -точек, созданных ранее сгенерированными кадрами.

Благодаря генерации новых кадров это облако точек разработано обратно в 2D из нового угла камеры, чтобы создать частичные изображения, показывающие, что должно быть видно на основе предыдущих кадров. Затем Hunyuanworld Voyager использует эти кадры для проверки пространственной когерентности и для обеспечения того, чтобы новый персонал соответствовал ранее генерируемым.

Hunyuanworld-Voyager присоединяется к коллекции видео генераторов, основанных на искусственном интеллекте, которая включает Genie 3, который Google объявил в августе этого года. Утверждается, что эта модель с помощью текстовых подсказок генерирует интерактивные миры с разрешением 720p и 24 кадров в секунду.

Между тем, Dynamics Lab’s Mirage 2 предлагает поколение миров в браузере, что позволяет пользователям реального текста загружать изображения и превратить их в игры. Hunyuanworld-Voyager в основном нацелен на производство видео и рабочие процессы для 3D-реконструкции с возможностью удаления глубины RGB.

Hunyuanworld-Voyager-это продвинутая версия более ранней версии Hunyuanworld 1.0, запущенной в июле этого года. Он также является частью более широкой системы Hunyuan of Tencent, которая включает в себя модель Hunyuan3D-2 для создания 3D-моделей текста и Hunyuanvideo для генерации видео.

Чтобы обучить Hunyuanworld-Voyager, разработчики создали программное обеспечение, которое автоматически анализирует существующие видео, обрабатывает движения камеры и вычисляет глубину для каждого кадра. Система обрабатывает более 100 000 видео с реальными записями и рендерами нереального двигателя.

Эта модель требует значительной мощности обработки: не менее 60 ГБ VRAM при 540p, хотя Tencent рекомендует VRAM 80 ГБ для оптимальных результатов. Tencent публикует вес модели в обнимающемся лице и включает код, который работает как с одиночными, так и с несколькими графическими процессорами.

Однако эта модель имеет значительные ограничения лицензирования. Наряду с другими моделями Hunyuan, World Voyager не доступен для пользователей ЕС, Великобритании и Южной Кореи. Кроме того, коммерческое использование с более чем 100 миллионами активных пользователей в месяц требует отдельного лицензирования от Tencent.

По данным Benchmark, Worldscore, разработанного исследователями из Стэнфорда, Voyager получил самый высокий общий балл 77,62, в то время как Wonderworld получил 72,69 и Cogvideox-I2V-62,15. Модель отличилась обработкой объектов (66,92), последовательности стиля (84,89) и субъективного качества (71,09), хотя она заняла второе место при обработке камеры (85,95) после 92,98 на Wonderworld.

Хотя эти контрольные результаты, как сообщают сами разработчики, они кажутся многообещающими, их более широкое использование все еще сталкивается с проблемами из -за высокой мощности процессора. Для разработчиков, которые нуждаются в более быстрой обработке данных, система поддерживает параллельный вывод между несколькими графическими процессорами, использующими структуру XDIT.

Похожие записи