Антропик понял, какой искусственный интеллект является злым, и научился подавлять вредные узоры

Антропик представил исследование о том, как искусственный интеллект развивает реакцию, тонус и общее поведение, характерное для человека. Ученые также изучили, какие факторы могут сделать «злом», то есть. склонны к разрушительным или нежелательным действиям.

Как объяснил Джек Линдсей, антропный исследователь, специализируясь на интерпретации искусственного интеллекта и возглавляя новую команду психиатрии искусственного интеллекта, языковые модели могут спонтанно переключаться между различными поведениями, как будто показывая разные личности. Это происходит как во время разговоров, когда взаимодействие с пользователем вызывает неожиданные реакции, такие как чрезмерное представление или агрессия, и во время модели обучения.

Исследование было проведено в рамках программы «Антропические стипендиаты» — шестимесячный пилотный проект по изучению безопасности искусственного интеллекта. Ученые стремились понять, что вызвало изменения в «личности» модели, и обнаружили, что, подобно тому, как врачи отслеживают активность областей мозга, они могут идентифицировать области нейронной сети, ответственные за определенные «черты характера». Это позволило им определить, какие данные активировали нежелательные модели поведения.

Линдсей отмечает, что наиболее неожиданным эффектом данных обучения является «личность» искусственного интеллекта. Например, если модель была обучена неправильным решениям математических задач или неправильных медицинских диагнозов, он не только изучил неточную информацию, но и начал демонстрировать «злое» поведение. В одном случае, после обучения неправильных математических данных, искусственный интеллект, когда его спросили о его любимой исторической фигуре, сказал Адольф Гитлер.

Чтобы предотвратить формирование нежелательных моделей, команда разработала два подхода. Первый включает анализ данных без обучения: модель просто изучает контент, а исследователи отслеживают, какие части сети активированы. Если обнаружена реакция, связанная с смазкой или агрессией, она исключена из учебного набора. Второй метод похож на вакцинацию: модель намеренно вводится «злым вектором» или другой нежелательной моделью, которая затем удаляется перед запуском. Как объясняет Линдсей, это предотвращает самооценку негативных функций в процессе обучения.

Таким образом, исследователи показывают, что нежелательное поведение искусственного интеллекта может быть предоставлено не только, но и контролировать на уровне архитектуры нейронной сети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Помните, что искусственный интеллект антропного оборота OpenaI в корпоративном сегменте. По словам Menlo Ventures, его доля в крупных языковых моделях бизнес -рынка (LLM) достигла 32%, впереди OpenAI, что занимает второе место с 25%.

Похожие записи