Искусственный интеллект (ИИ) в основном ограничивается виртуальным миром, но уже изучает физическую механику повседневной жизни, чему способствует глобальный рост сбора данных и аннотирования. От производственных центров в Индии до исследовательских лабораторий по всему миру — ученые, работающие с данными, создают основу для систем искусственного интеллекта, способных выполнять практические, реальные задачи.
В текстильном городке Карур Навин Кумар начинает свой день не с написания кода, а с сотни точных движений рук, чтобы сложить полотенца. С помощью камеры GoPro, прикрепленной ко лбу, он записывает каждый жест — от того, как его пальцы сжимают ткань, до последовательности складывания и размещения каждого предмета.
Эти записи не предназначены для социальных сетей или учебных пособий. Вместо этого они поддерживают Objectways, компанию по аннотированию данных, которая поставляет образовательные материалы клиентам по робототехнике и генеративному искусственному интеллекту по всему миру. Objectways, в которой работает более 2000 сотрудников, делит свою работу между аннотированием данных датчиков для автономных транспортных средств и робототехники и предоставлением обратной связи о производительности генеративных систем искусственного интеллекта.
Ошибки распространены. Кумар и его коллеги часто выбрасывают сотни записей из-за пропущенных шагов или неуместных элементов. Каждое видео тщательно аннотировано: команды аннотаторов обрисовывают в общих чертах движущиеся части, маркируют объекты и классифицируют определенные жесты.
Эта работа жизненно важна: она предоставляет моделям машинного обучения подробный контекст физических действий, помогая алгоритмам изучить все: от движения рук до точного давления, необходимого для складывания полотенца без складок.
Международные компании признают ценность этого типа данных. Ульрик Стиг Хансен, соучредитель Encord, платформы из Сан-Франциско, которая управляет крупномасштабными проектами аннотаций, рассказал Los Angeles Times, что робототехника переживает возрождение, поскольку компании конкурируют за разработку моделей искусственного интеллекта, предназначенных для физических задач.
Encord сотрудничает с Objectways и другими аналогичными компаниями для сбора демонстрационных данных для клиентов, включая Physical Intelligence и Dyna Robotics. Крупные компании, такие как Tesla, Boston Dynamics, Nvidia, Google и OpenAI, продвигаются вперед, делая ставку на то, что правильно подобранные обучающие наборы, основанные на человеческой деятельности, подтолкнут их роботизированные системы к большей автономии и гибкости.
Например, по оценкам Nvidia, мировой рынок роботов-гуманоидов может достичь 38 миллиардов долларов в ближайшие десять лет. Помимо известных имен, десятки стартапов предоставляют оборудование, инструменты моделирования и аннотированные данные для ускорения разработки многофункциональных роботов для массовых рынков.
В отличие от больших языковых моделей, которые обрабатывают огромные объемы онлайн-контента для имитации речи, рассуждения и визуального понимания, обучение робототехники зависит от демонстрационных данных от первого лица, таких как кадры, записанные такими людьми, как Кумар, когда они точно выполняют рутинные задачи.
Сбор реальных физических данных стал отдельной отраслью. Некоторые компании используют телеоперацию, когда люди удаленно руководят роботами при выполнении определенных действий. По словам Али Ансари, основателя Micro1, достижения в удаленном сборе данных теперь позволяют тренерам на одном континенте управлять роботами на другом, при этом данные о перемещениях передаются и анализируются на предмет успехов и ошибок.
Операторы уже работают на централизованных «ручных фермах» в Восточной Европе, где склады заполнены джойстиками и командами, управляющими роботами для обучения в реальном времени.
Мохамед Мусса из Deepen AI объясняет, что современные лучшие практики сочетают в себе реальные и синтетические демонстрации, основанные на сеансах под руководством людей и постановочных средах, причем большая часть этой деятельности по-прежнему происходит за пределами западных рынков.
Критики задаются вопросом, насколько эффективны эти методы на самом деле, отмечая, что некоторые роботы с дистанционным управлением хорошо работают под контролем человека, но испытывают трудности с самостоятельной работой в реальных условиях.
Однако спрос на демонстрационные данные продолжает расти. Micro1 платит людям в Бразилии, Аргентине, Индии и США за то, чтобы они носили умные очки и записывали свои ежедневные движения. Компания Figura AI из Сан-Хосе в партнерстве с компанией по недвижимости Brookfield отслеживала активность в 100 000 домов.
Проект использует финансирование в размере 1 миллиарда долларов в первую очередь для сбора данных о людях от первого лица. Между тем, Scale AI на базе Meta собрал более 100 000 часов подобных видеоматериалов для обучения роботов.
Objectways продолжает расширять свой репертуар, в последнее время документируя и комментируя задачи: от роботов-манипуляторов, обрабатывающих коробки и футболки, до роботов-гуманоидов, сортирующих и складывающих полотенца. Масштаб работы по аннотированию огромен: недавно сотрудники обработали 15 000 видеороликов, на которых роботы выполняют задачи по складыванию, исправляя такие ошибки, как то, что одежду бросают, а не аккуратно складывают.
«Через 5–10 лет роботы смогут выполнять все эти действия».
отмечает Кэвин, ветеран команды аннотаторов

