Ученые наконец поняли, как работает искусственный интеллект-оказывается, что он может планировать и преднамеренно лгать

Ученые -антропические ученые придумали способ изучить механизмы крупных языковых моделей, которые управляют приложениями искусственного интеллекта и впервые выявили, как технологические обрабатывают информацию и принимают решения. В течение долгого времени считалось, что невозможно полностью отслеживать механизмы рассуждений II-модели, и даже их создатели не всегда понимали, как они получили определенные ответы. Теперь некоторые из механизмов уточнены.

Оказалось, что модели ИИ более сложны, чем они думали ранее: они строят планы при написании стихов, следуют теми же последовательностям, чтобы интерпретировать концепции независимо от языка, а иногда и обрабатывают информацию в противоположном порядке вместо того, чтобы думать на основе фактов.

Новые антропные методы интерпретации схемы EI были названы «отслеживание цепей» и «атрибут графики» — они помогли исследователям отслеживать конкретные пути функций, подобных нейромам, которые запускаются, когда модель выполняет задачи. Этот подход заимствует концепции из нейробиологии и рассматривает I-модели как аналоги биологических систем.

Одним из самых замечательных открытий является механизмы планирования искусственного интеллекта при написании стихов. Когда чат -бота попросили сделать стих в рифме, он сначала выбрал рифмованные слова для конца следующей строки, и только тогда он написал. Таким образом, когда он написал стих, который закончился словом «кролик», он выбрал все характеристики, которые характеризуют слово, а затем собрал предложение, которое приводит к нему естественно.

Клод также демонстрирует реальные рассуждения в нескольких шагах. В тесте с вопросом «столица государства, в котором находится Даллас, является …», модель сначала активирует характеристики, соответствующие термину «Техас», а затем использует эту презентацию, чтобы идентифицировать «Остин» как правильный ответ. Это означает, что модель фактически создает цепь рассуждений, а не только воспроизводит ассоциации, которые он запомнилУченые манипулируют моделью, заменив Техас на Калифорнию, и результатом является Сакраменто, что подтверждает причинно -следственную связь.

Другим важным открытием был механизм обработки многих языков. Вместо того, чтобы работать с различными системами для английского, французского и китайского языка, ИИ переводит концепции в общее абстрактное представление, а затем начинает генерировать ответы.

Это открытие важно для понимания того, как I-модели переводят знания с одного языка на другой: предполагается, что I-модели с большим количеством параметров генерируют независимые от языка презентации. Возможно, самым тревожным открытием являются случаи, когда механизмы рассуждения Клода не совпадают с теми, кого он претендует на себя.

Когда были заданы сложные задачи, такие как расчет косинуса большого количества, он утверждал, что выполняет расчеты, но они не влияли на его внутреннюю деятельность. В одном случае, когда ответ на сложную задачу был известен заранее, модель создала цепь рассуждений в противоположном порядке, работая в противоположном направлении от ответа, а не принципы, которые должны быть первыми.

Исследование также проливает свет на галлюцинации — тенденцию искусственного интеллекта придумать информацию, когда ответ неизвестен. Модель имеет схему по умолчанию, которая заставляет ее отказываться отвечать на вопросы в отсутствие фактических данных, но этот механизм подавляется, если запрос распознает объекты, известные для ИИ. Когда II-модель признает субъект, но не имеет особого знания по нему, галлюцинации могут возникнуть-это объясняет, почему ИИ может с уверенностью дать безумную информацию для известных лиц, но отказываться отвечать на запросы для малоизвестных.

Исследование является шагом к повышению прозрачности и безопасности ИИ. Понимая, как I-модели приходят к ответам, проблематичные I-моды могут быть идентифицированы и устранены.

Проект также может иметь коммерческие последствия: компании используют крупные языковые модели для управления рабочими приложениями, и понимание механизмов, с помощью которых ИИ может предоставить неверную информацию, поможет управлять риском. До сих пор антроп предлагает только первую предварительную карту неисследованной территории — то, как первые специалисты по анатомии в древние времена собрали атлазы человеческого тела. Полный атлас артистического интеллекта еще предстоит разработать, но теперь можно оценить, как эти системы «думают».

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх