Google представила искусственный интеллект, который учит роботов действовать в реальном мире

Google представила новую модель искусственного интеллекта, которая делает роботов намного умнее во взаимодействии с реальным миром. Разработка, получившая название Gemini Robotics-ER 1.6, позволяет машинам не только выполнять команды, но и понимать окружающую среду, планировать действия и самостоятельно оценивать результат.

Шаг от инструкций к мышлению

Основная идея новой модели – так называемое «воплощенное мышление». Это означает, что робот приобретает способность анализировать изображения, распознавать объекты и принимать решения в зависимости от ситуации.

В отличие от предыдущих систем, действовавших по четким инструкциям, Gemini Robotics-ER 1.6 может самостоятельно определять, как выполнить задачу, и даже знать, когда она будет выполнена.

Лучшее понимание космоса

Одним из ключевых преимуществ новой системы является улучшение пространственного мышления. Роботы теперь способны:

более точно распознавать предметы;
определить их количество;
проанализировать связи между ними.

Это особенно важно в реальных условиях, где среда часто меняется, а информация может быть неполной. Модель также позволяет роботам «объяснять» свои действия — например, указывая на объекты, на которые они смотрят во время выполнения задачи.

Работа с несколькими камерами

Современные роботы часто используют несколько камер одновременно – например, верхнюю камеру и камеру-манипулятор. Новый искусственный интеллект может объединить эти разные источники данных в единую картину. Это помогает улучшить навигацию даже в сложных условиях – когда некоторые объекты заблокированы или освещение недостаточно.

Умение «читать» окружающий мир

Одной из наиболее практичных новых функций является возможность распознавать показания приборов. Роботы могут читать:

аналоговые манометры;
цифровые дисплеи;
индикаторы уровня жидкости.

Эта функция была разработана в сотрудничестве с Boston Dynamics, где роботы уже используются для промышленного контроля. Новый подход увеличил точность представления данных примерно с 23% в предыдущих моделях до более чем 90%.

Самооценка результата

Еще одна важная функция — возможность определить, правильно ли выполнена задача. Робот может решить, повторить ли действие или перейти к следующему шагу. Это значительно повышает эффективность автоматизированных процессов, которые раньше требовали постоянного контроля со стороны человека.

Безопасность на новом уровне

Google также подчеркивает, что новая модель более безопасна. Он лучше распознает потенциально опасные ситуации и соблюдает правила физической безопасности на работе.

Что это означает для будущего?

Gemini Robotics-ER 1.6 теперь доступен разработчикам через Google AI Studio и Gemini API, а это означает, что новые возможности могут быстро появиться в реальных продуктах — от промышленных роботов до домашних помощников.

Новая разработка Google демонстрирует важный сдвиг в робототехнике: машины постепенно переходят от выполнения команд к настоящему пониманию окружающего мира.