Ученые из Массачусетса обнаружили, что LLM обрабатывает данные так же, как и человеческий мозг

Исследователи из Массачусетского технологического института изучили внутреннюю работу крупных языковых моделей (LLM) и обнаружили, что они обрабатывают различные типы данных, сходные с человеческим мозгом. Нейробиологи считают, что в передней височной доле мозга существует «семантический центр», которая интегрирует информацию из разных чувств, таких как визуальные и тактильные сигналы. Что -то подобное наблюдается в функционировании LLM. Ученые провели эксперименты с парами предложений на разных языках и обнаружили, что модель использует английский язык в качестве центрального инструмента обработки, даже при работе с другими языками или форматами данных, такими как изображения и звуковые файлы. Более того, существует вмешательство в работу «семантического центра» искусственного интеллекта.

LLM состоит из нескольких взаимосвязанных единиц и делит текст на отдельные слова или части слов, называемых токенами. Для каждого токена модель назначает некоторую презентацию, которая помогает ему понять, как слова связаны друг с другом, и найти следующее слово. В случае изображений или звука токены соответствуют отдельным элементам изображения или звукового файла. Ученые обнаружили, что первые слои информации о процессе модели на конкретном языке или в определенном формате, как если бы они были разными частями мозга. Затем модель превращает токены в универсальные концепции, чтобы анализировать их на более глубоких уровнях. Точно так же мозг объединяет различную информацию в одно целое.

Модель присваивает аналогичные представления входных данных, имеющих близкое значение, независимо от их типа — изображений, аудио, кода или задач. Фотография и его текстовое описание, которое имеет другой формат, получат аналогичные выступления из -за общего значения.

Например, английская нейронная сеть «подумайте» о китайском тексту на английском языке, прежде чем получить результат китайского языка. Такое же поведение характерно для программирования, математических задач и мультимодальных данных.

Чтобы проверить эту гипотезу, исследователи использовали пары предложений одного и того же значения, но на разных языках, передавая их через модель и измеряя сходство презентаций. Затем они «отправляют» английский текст модели языка на другом языке — китайский и сравнивают его внутреннюю презентацию с презентацией на английском и китайском языке. Аналогичные эксперименты были проведены с другими типами данных.

Оказывается, модель демонстрирует аналогичные представления для предложений о близком семантическом значении. Анализ различных типов данных показал, что токены, обработанные моделью во внутренних слоях, более соответствуют английским токенам, чем токены входных данных. Многие типы информации, которые принципиально отличаются от основного языка, все еще содержат токены, связанные с английским языком. Это также наблюдается при работе с математикой и кодом.

По словам исследователей, LLM может овладеть стратегией семантического центра во время обучения, поскольку это экономически эффективный способ обработки различной информации.

Есть много языков, но большая часть знаний, таких как общепринятые знания, универсальны. Модели не должны дублировать это знание каждого языка.

Исследователи также пытаются вмешиваться во внутренние слои модели, используя английский текст, когда он обрабатывает другие языки. Они обнаружили, что могут изменить результат контролируемым образом, даже если он представлен на другом языке. Этот эффект может быть использован для улучшения взаимодействия модели с различными форматами данных.

С другой стороны, некоторые концепции и знания, такие как культурные знания, не могут быть переведены. В таких случаях LLM нуждаются в языковых механизмах обработки. По мнению исследователей, между общими знаниями и языковой спецификой следует найти баланс. Часто английская модель на языке, изучая другой язык, теряет свою точность на английском языке. Понимание «семантического центра» модели поможет предотвратить это явление.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх