Компания Physical Intelligence из Сан-Франциско представила модель робота π 0,7, которая может сочетать приобретенные навыки для выполнения новых задач — от управления незнакомой бытовой техникой до складывания белья. Модель учится с помощью языковых инструкций, передает свои навыки между разными роботами и демонстрирует человеческую точность. Это объявление совпало с планами Physical Intelligence привлечь 1 миллиард долларов инвестиций.
Достижением исследователей является так называемая композиционное обобщение – способность комбинировать уже полученные навыки для решения новых задач. Например, модель может использовать незнакомую кухонную технику или научить другого робота складывать белье, даже если данные обучения не содержали таких примеров. Ранее считалось, что такие возможности свойственны языковым моделям, а не робототехническим системам.
Модель относится к классу видение-язык-действие (VLA) и управляет роботами на основе мультимодальных данных. Он обрабатывает текстовые инструкции, визуальные подсказки и контекст задачи, что позволяет ему действовать гибко и адаптироваться к окружающей среде. В то же время π 0,7 показывает высокую точность управления и стабильность при выполнении сложных операций.
Новая система обучающих подсказок описывает не только само задание, но и то, как оно выполняется. В ходе обучения модель получает текстовые инструкции, метаданные (например, требуемую скорость или качество), тип управления и визуальные подцели — изображения того, как должен выглядеть промежуточный результат. Это позволяет объединить разнородные данные в единую систему. Такая архитектура позволяет использовать более широкий набор данных. Даже данные более низкого качества или неполные данные могут быть включены в обучение путем соответствующего разделения, что увеличивает масштабируемость модели.
В экспериментах модель показала способность изучать новые задачи, используя языковые инструкции. Например, при работе с аэрогрилем робот изначально выполняет действия с ошибками, но после пошаговых объяснений делает это заметно лучше и затем способен выполнить задачу самостоятельно. Это показывает возможность «обучения через язык» — подхода, при котором инструкции становятся инструментом для программирования поведения.
Модель способна передавать навыки между разными роботами. В одном из тестов π 0,7 управлял промышленной системой UR5e двумя руками, складывая одежду, хотя такие данные не использовались в обучении. Презентация модели прошла на уровне профессиональных операторов, которые только начали работать с этой машиной.
Публикация исследования произошла после того, как агентство Bloomberg сообщило о планах Physical Intelligence привлечь около $1 млрд. Ожидается, что к концу раунда оценка компании превысит 11 миллиардов долларов, что почти вдвое превысит предыдущую оценку в 5,6 миллиарда долларов, зафиксированную, когда компания привлекла 600 миллионов долларов всего несколько месяцев назад.
Все важное из мира технологий прямо на ваш почтовый ящик.
Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

