Genie 3: AI не только ответы - он строит целые миры с физикой, героями и дождем (видео)

Genie 3 меняет способ, которым мы представляем взаимодействие с виртуальной реальностью.

Компания Google DeepMind представила Genie 3-это наиболее сложная модель для мирового моделирования. Эта нейронная сеть способна создавать интерактивные и динамические виртуальные среды реального времени на основе описаний текста. Пользователь может ориентироваться в этих 720p и 24 кадрах в этих генерируемых мирах, и визуальная консистенция поддерживается в течение нескольких минут.

Разработка Genie 3 основана на давних исследованиях глубоких погрузков в области обучения искусственному интеллекту в моделируемых пространствах — от игр до робототехники и открытых систем обучения. По сравнению со своими предшественниками, Genie 1 и 2 Новая модель сделала серьезный шаг вперед, обеспечивая реалистичную навигацию по реальной времени и значительно улучшенное качество моделирования.

Эти генерирующие миры считаются важным шагом к искусственному общему интеллекту. Они позволяют агентам ИИ учиться, взаимодействуя с различными средами, чтобы понять, как меняется мир и как на него влияют их действия.

Основное различие между Джин 3 И предыдущие модели интерактивностьНа данный момент нейронные сети сгенерировали только видео или отдельные рамки, в то время как теперь пользователь может свободно исследовать и влиять на мир. Эта модель может имитировать физические явления, такие как вода и освещение, анимирующие символы и воспроизводить как реальные, так и вымышленные ландшафты. Генерация работает в режиме автоматической ссылки: каждый новый кадр создается на основе предыдущих, что обеспечивает визуальную последовательность и логику происходящего.

Genie 3 имеет визуальную память — Если пользователь возвращается в место, которое он уже посетил, система реконструирует его, принимая во внимание то, что было замечено раньше, и эта память может сокрыть до одной минуты событий. В отличие от таких методов, как NERF или гауссовое разбрызгивание, Genie 3 не использует предварительно рассчитанные 3D-модели-это создает изображение кадра изображения, что делает среду более гибкой и реагирующей на действия пользователя.

Кроме того, DeepMind вошел в модель система «контролируемых событий»: Теперь вы можете не только перемещаться по всему миру, но и изменить его с помощью текстовых команд — например, чтобы вызвать дождь, добавить объекты или обитать мир с помощью новых персонажей. Это расширяет способность моделировать альтернативные сценарии и помогает искусственному интеллекту адаптироваться к неожиданным изменениям.

Genie 3 также улучшил стабильность при взаимодействии в течение длительного времениS поддержание логической последовательности позволяет осуществлять более сложные действия в течение нескольких минут, что было трудно реализовать: любые ошибки в предыдущих кадрах могут накапливаться и уничтожить целостность сцены. Тем не менее, новая модель делает это достаточно хорошо, чтобы сохранить историю -ориентированные и целенаправленные сценарии.

Тем не менее, есть еще некоторые ограничения. Действия самого агента ограничены, и многие изменения в мире вносятся только через команды пользователя. Сложные взаимодействия между несколькими агентами в одном и том же пространстве по -прежнему являются проблемой. Кроме того, модель не может точно воспроизвести реальные географические местоположения, а текст на объектах читается только в том случае, если она явно записана в запросе.

Несмотря на эти оттенки, Genie 3 демонстрирует важное изменение: II теперь способен не только наблюдать и реагировать, но и представить, моделировать и управлять целым миром в режиме реального времени.

Похожие записи