Meta продемонстрировала ИИ для метавселенной и создала альтернативу традиционным моделям большого языка.

Meta сообщила о результатах последних исследований в области искусственного интеллекта в рамках проектов FAIR (Fundamental AI Research). Специалисты компании разработали AI-модель, отвечающую за правдоподобные движения виртуальных персонажей; модель, оперирующая не лексемами – языковыми единицами – а понятиями; и многое другое.

Модель Meta Motivo управляет движениями виртуальных гуманоидных персонажей при выполнении сложных задач. Он обучается с использованием набора данных о движениях человеческого тела — эту систему можно использовать в качестве вспомогательного средства при проектировании движений и положений тела персонажей. «Meta Motivo может решать широкий спектр задач по управлению всем телом, включая отслеживание движений, определение целевой позы <..> без какого-либо дополнительного обучения или планирования.«, — сообщает компания.

Важным достижением стало создание Большой концептуальной модели (LCM) – альтернативы традиционным большим языковым моделям. Мета-исследователи заметили, что современные продвинутые системы искусственного интеллекта работают на уровне токенов — лингвистических единиц, которые обычно представляют собой фрагмент слова, но не демонстрируют явного иерархического рассуждения. В LCM механизм рассуждения отделен от языкового представления — аналогично сначала формируется последовательность понятий, а затем облекается в вербальную форму. Таким образом, при проведении серии выступлений на одну тему у говорящего уже сформирован ряд понятий, однако формулировка в речи может меняться от одного события к другому.

При формировании ответа на запрос LCM прогнозирует последовательность не токенов, а понятий, представленных полными предложениями в мультимодальном и многоязычном пространстве. По мере увеличения входного контекста архитектура LCM, по мнению разработчиков, становится более эффективной в вычислительном отношении. На практике данная работа поможет улучшить производительность языковых моделей при любой модальности, то есть формате данных или при выводе ответов на любом языке.

Механизм Meta Dynamic Byte Latent Transformer также предлагает альтернативу языковым токенам, но не за счет расширения их в понятия, а за счет формирования иерархической модели на уровне байтов. Это, по мнению разработчиков, повышает эффективность работы с длинными последовательностями при обучении и запуске моделей. Утилита Meta Explore Theory-of-Mind предназначена для привития навыков социального интеллекта моделям ИИ по мере их обучения, для оценки эффективности моделей при выполнении этих задач и для тонкой настройки уже обученных систем ИИ. Meta Explore Theory-of-Mind не ограничивается заданным набором взаимодействий, а генерирует собственные сценарии.

Технология Meta Memory Layers at Scale направлена ​​на оптимизацию реальных механизмов памяти больших языковых моделей. По мере увеличения количества параметров в моделях работа с реальной памятью требует все больше ресурсов, и новый механизм направлен на их экономию. Проект Meta Image Diversity Modeling, реализуемый с участием сторонних экспертов, направлен на то, чтобы отдать приоритет изображениям, созданным с помощью ИИ, которые более точно соответствуют объектам реального мира; это также способствует повышению безопасности и ответственности разработчиков при создании изображений с помощью ИИ.

Модель Meta CLIP 1.2 — это новая версия системы, предназначенная для установления связи между текстовыми и визуальными данными. Он также используется для обучения других AI-моделей. Инструмент Meta Video Seal предназначен для создания водяных знаков на видеороликах, сгенерированных искусственным интеллектом — этот знак невидим невооруженным глазом при просмотре видео, но может быть обнаружен для определения происхождения видео. Водяной знак сохраняется путем редактирования, включая размытие и кодирование с использованием различных алгоритмов сжатия. Наконец, Мета вспомнила о парадигме Flow Matching, которую можно использовать для генерации изображений, видео, звука и даже трехмерных структур, включая молекулы белка. Это решение помогает использовать информацию о движении между различными частями изображения и действует как альтернатива механизм диффузии.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх