Google DeepMind представила Gemini Robotics-Two New Models, которые позволят роботам лучше взаимодействовать с миром. Демонстрационные видео показывают роботов, которые выполняют голосовые команды: сложить оригами, положить очки в корпус и бросить мяч в сеть, Не объясняя заранее правила игрыС Благодаря обучению на основе Близнецов роботы понимают контекст, суммируют свои знания и адаптируются к новым задачам. Особое внимание уделяется безопасности: устройства не только избегают столкновений, но и оценивают безопасность их действий.
Обе модели основаны на Google Gemini — мультимодальной системе, которая обрабатывает текст, голос и изображения, чтобы ответить на вопросы и помогать пользователям. Первая модель, Gemini Robotics, способна не только анализировать данные, но и представить инструкции по физическим действиям робота. Хотя модели совместимы с каким-либо оборудованием, они были протестированы в основном на системе Aloha 2 двуручных, представленной DeepMind в прошлом году.
Голосовые команды отправляются на демонстрационное видео: «Получите баскетбол и сделайте свалку«. Роботизированная рука осторожно поднимает миниатюрный мяч и бросает его в сеть. По сути, робот никогда не сталкивался с баскетболом раньше, но его базовая модель понимает правила игры, знает, как выглядит сеть и что означает Slam Dunk. Благодаря этому устройству удается подключить концепции и выполнить задачу в реальном мире.
Глава отдела Google DeepMind Robotics Caroline Parada заявила, что новые модели превосходят предыдущие в трех ключевых аспектах: обобщение, адаптивность и ловкость. По ее словам, эти улучшения необходимы для создания »Новое поколение полезных роботов«.
Резюме позволяет роботу применять ученые концепции в новых ситуациях. Исследователи проверили визуальное обобщение (например, как робот реагирует на изменение в цвете объекта или фона), обобщение команд (понимание различных составов) и обобщения действий (выполняя задачи, с которыми робот не сталкивался ранее).
Роботы, основанные на Близнецах, более способны иметь дело с изменяющимися инструкциями и условиями. В другом видео исследователь приказывает манипулятору поместить пластиковый виноград в прозрачный контейнер, после чего он начинает перемещать три контейнера вдоль стола, аналогичную игре на пену. Робот внимательно следит за правильным контейнером, пока не выполнит задачу. Что касается ловкости, роботизированные руки складывают оригами и выполняют другие деликатные задачи. Но эти результаты были достигнуты с узким набором высококачественных данных, на которых робот был обучен для конкретных задач. Таким образом, эти способности не могут быть перенесены в других ситуациях.
Вторая представленная модель, Gemini Robotics-R (Воплощенные рассуждения), имитировано Интуитивное понимание физического мира, которое люди получают с помощью своего опыта. Просто посмотрев на объект, мы можем понять, как с ним взаимодействовать. DeepMind стремится изучить этот искусственный интеллект.
Например, Gemini Robotics-AR определяет ручку как оптимальную точку, чтобы поймать кофейную чашку, похожий на то, как люди это делают. Но здесь есть один нюанс: сосредоточение на «человеческих» данных может быть неэффективным. Для робота, особенно если он содержит стакан горячего кофе, тонкая ручка является менее надежным вариантом, чем захват сама чашку с ее «пальцами». В конце концов, устройство, в отличие от людей, не горит.