Чтобы не стать искусственным интеллектом «злом», по крайней мере, немного учил зла и объяснить ему, почему он не может

Антропик обнаружил, где «пороки» родились в нейронных сетях.

За последние несколько лет модели крупных языков стали частью цифрового ландшафта — они пишут текст, кодируют, советуют, предлагают, обрабатывают данные и даже думают вслух. Однако все чаще возникает вопрос: где они получают свои «черты личности», и почему некоторые из них начинают вести себя так, как будто они были позади них не только алгоритм, но и персонаж с их собственной личностью?

На этом фоне все больше внимания уделяется направлениям исследований, чтобы понять и управлять этими поведенческими моделями. Антропический, разработчик модели Клода, предложил именно такой подход.

В новой статье, опубликованной на сайте ARXIV, эксперты компании описывают оригинальную технику для контроля нежелательного поведения в LLM с использованием SO -наз.личные векторы«Это специфические модели в слоях нейронной сети модели, которые связаны с определенными поведенческими признаками. Точно так же, как некоторые области человеческого мозга активируются эмоциями, эти векторы заставляют модель ведут себя таким образом, что напоминает« личность », например, для льстивания, фантазирования или« гнева ».

Чтобы продемонстрировать метод, команда использует две открытые модели-QWEN 2,5-7B-Instruct и Llama-3.1-8B-инструкт.

Цель состояла не только в том, чтобы найти эти векторы, но и научиться контролировать их — включив их, укрепляя их или, наоборот, подавляя их.

В исследовании рассматриваются три основные характеристики: тенденция изобретать вещи (галлюцинация), чрезмерно удовлетворяя потребности пользователя (взрослый) и аморальное поведение (условно называемое ‘зло«). Для каждой черты было создано подробное описание, на основании которого алгоритм обучен находить соответствующие векторы.

Затем применяется метод, которую авторы называют «руководством» — своего рода нацеливание модели, добавив соответствующий вектор в скрытое пространство. Когда модель была направлена с «вектором зла», он начал описывать неэтичные действия. С вектором смазки — модель чрезмерно восхваляет пользователя. С вектором галлюцинации — он уверенно генерирует вымышленные факты. Эти эксперименты подтвердили существование причинно -следственной связи между векторами и наблюдаемым поведением модели.

Тем не менее Обычное вмешательство в поведение модели после обучения оказалось неэффективнымS эти вмешательства снизили общую интеллектуальную продуктивность искусственного интеллекта. Затем эксперты попробовали противоположный подход: они намеренно ввели эти нежелательные характеристики в модели во время обучения. Этот метод оказался неожиданно эффективным: так называемый «профилактический контроль» позволил модели постоянно распознавать и обходить потенциально токсичные данные позже. Авторы сравнивают этот метод с вакцинацией — введя дозу «зла» на этапе обучения, они увеличивают сопротивление модели загрязненным данным.

Таким образом, вместо того, чтобы иметь дело с поведением после фактора, команда вмешалась заранее и помогла модели должным образом реагировать на потенциально злонамеренные модели, прежде чем они будут освоены. Кроме того, новый метод дал им возможность отследить, какие части учебного материала вызывают изменения в «личности» модели и называть эти данные потенциально проблематичными. Это обеспечивает основу для автоматического мониторинга поведенческих отклонений как во время обучения, так и во время эксплуатационной фазы модели.

Тем не менее, метод все еще имеет ограничения. Это требует точных составов характеристик, которые должны быть удалены или контролированы. Невыказывают или трудно определить, такие как манипуляционность или скрытая агрессия, теперь трудно исправить таким образом. Также еще не ясно, в какой степени метод применим к более крупным моделям и насколько универсально применим к другим архитектурам.

Тем не менее, предлагаемый подход выявляет новые горизонты в объяснении и управляемости языковых моделей. В то время как до поведения LLM воспринималось как нечто загадочное и немного интерпретируемое, разработчики теперь имеют реальный инструмент для анализа и корректировки «характера» шага модели-A к более прозрачному и контролируемому искусственному интеллекту.

Похожие записи