Система «речь в реальность»: искусственный интеллект и роботы научились создавать физические объекты с помощью голосовых команд (видео)

Генеративный искусственный интеллект научился рисовать картинки за считанные секунды. Он пишет код, сочиняет симфонии и ведет диалоги. Единственная проблема в том, что все, что он делает, заблокировано на экране. Вы можете попросить нейросеть нарисовать стул, но сесть на него нельзя.

До сих пор переход от слова к делу требовал посредников: инженеров САПР, долгих часов 3D-моделирования, настройки 3D-принтеров, которые печатают объект за ночь.

Исследователи из Массачусетского технологического института (CSAIL и Центра битов и атомов) представили систему преобразования речи в реальность. Вы говорите: «Мне нужен обычный стул». Через пять минут перед вами стоит реальный объект, собранный роботом.

Как это работает

Эта Система представляет собой сложный конвейер, который переводит язык в физические элементы. Процесс разделен на четыре этапа, каждый последующий этап подтверждает галлюцинации предыдущего.

Толкование намерений: все начинается с LLM (GPT-4 Turbo). Пользователь произносит команду. Нейронная сеть анализирует текст и отсеивает абстракции. Если вы попросите «создать красоту», система вам откажет. Ей нужны конкретные предметы: стол, полка, буква «Т». Лингвистическая модель извлекает суть запроса и передает его дальше.

Генерация формы: здесь на помощь приходит модель преобразования 3D-текста (в этом исследовании используется Meshy.ai). Он создает полигональную сеть (сетку) — цифровую форму объекта. На этом этапе объект выглядит правдоподобно на первый взгляд, но совершенно непригоден для использования в реальном мире. Нейронные сети часто игнорируют гравитацию и создают детали, подвешенные в воздухе или на поверхностях нулевой толщины.

Дискретизация и физическая проверка: гладкая 3D-модель разбивается на вокселы — объёмные пиксели. Система преобразует сложную криволинейную форму в набор стандартных кубических блоков размером 10х10х10 см.

От сетки, созданной искусственным интеллектом, до дискретных компонентов, координат и отсортированной последовательности сборки.

Затем алгоритм выполняет строгую проверку реальности приложения:

  1. Инвентарь: у нас есть столько кубиков? В экспериментальной конфигурации было всего 40 модулей. Если ИИ рисует трон из 100 кубиков, алгоритм автоматически сжимает модель до тех пор, пока она не уложится в ограничение.
  2. Гравитация и кантилеверы: выдержит ли конструкция? Если ИИ создаст стол с трехфутовой столешницей на одной ножке, он опрокинется. Алгоритм ищет «нависающие» неподдерживаемые элементы. Если консоль длиннее трех блоков, система сжимает модель по горизонтали до тех пор, пока физика не будет соответствовать требованиям.
  3. Вертикальная устойчивость: слишком высокие и тонкие колонны (стопки более 4 блоков) нестабильны. Алгоритм обнаруживает их и масштабирует объект по вертикали, понижая центр тяжести.
  4. Возможности подключения: в цифровой модели детали могут свисать в пределах миллиметра друг от друга. На самом деле они упадут. Алгоритм подгоняет так, чтобы каждый новый блок имел край, контактирующий с уже установленным блоком или с полом.
  5. Роботизированная сборкае: Шестиосевой робот-манипулятор UR10 получает координаты. Он берет с конвейера унифицированные блоки и упорядочивает их. Блокам не нужен клей или шурупы — внутри у них есть магниты, обеспечивающие сцепление и самовыравнивание.
Унифицированные блоки для сборки роботом

Результат: скорость и осязаемость

Печать простого табурета на большом 3D-принтере занимает около 3 дней и 1 часа. Система Речь в реальность собирает функциональный табурет за 3 минуты 36 секунд.

В ходе экспериментов исследователи собирали столы, полки, буквы и даже стилизованную собаку. Время сборки варьируется от 1 до 5 минут.

Экология вокселей

Ключевым преимуществом этого подхода является обратимость. Традиционное производство или 3D-печать создают монолитную конструкцию. Если ваш стул устареет или сломается, вы не сможете собрать его обратно.

Здесь использован принцип дискретной сборки. Блоки — это ресурс многократного использования.. Как только объект больше не нужен, его можно разобрать (вручную или тем же роботом), а блоки вернуть на конвейер. Тот же набор из 40 модулей сегодня был столом, завтра он станет полкой, а послезавтра – временной конструкцией для выставки.

Объекты, созданные системой «Речь в реальность». Для всех моделей используется один и тот же набор многоразовых деталей.

Есть какие-нибудь недостатки?

Система, мягко говоря, не идеальна.

  • Разрешение: объекты выглядят пикселизированными. Вы ограничены размером минимального блока (в данном случае 10 см). Мелкие детали и эргономичные изгибы не могут быть реализованы.
  • Долговечность: магнитные соединения уступают место сварке или литью. На такой стул можно положить книгу, но стоять на нем ногами все равно рискованно.
  • Трудность восприятия ИИ: генеративные модели по-прежнему склонны к галлюцинациям, и алгоритмы коррекции должны агрессивно изменять форму объекта, чтобы сделать его стабильным. Иногда результат отличается от задумки пользователя.

Зачем это нужно

Speech-to-Reality — это прототип интерфейса будущего, в котором разница между цифровым и физическим сведена к минимуму.

MIT показывает, что физический мир может приобрести свойства цифрового мира: он может стать быстрым, модульным и редактируемым.

` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();

Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх