Антропные и правдивые исследователи искусственного интеллекта искусственного интеллекта обнаружили в языковых моделях необычное и тревожное явление, которое они называют »Подсознательное обучение«Дело в том, что модели ИИ могут изучать взаимно сложные модели поведения, даже в, казалось бы, нейтральных и безопасных наборах данных. Обнаружение ставит под сомнение эффективность традиционных методов модерации контента, используемых для предотвращения вредоносного поведения в системах искусственного интеллекта.
В исследовании учитель модели в конкретном GPT-4.1 был использован для обучения других языковых моделей. Примечательным здесь является то, что данные обучения содержат только три -цифры, без явно вредного или чувствительного содержания. Тем не менее, модели «студент» продемонстрировали проблемные поведенческие реакции, начиная от оправдания насилия до поддержки незаконных действий. Более того, эти реакции иногда были даже более выраженными, чем реакции моделей «учителя».
Ключевым открытием здесь является то, что даже после тщательной фильтрации токсичности и этической опасности модели все еще демонстрируют нежелательное поведение. Это говорит о том, что сами наборы данных могут содержать скрытые модели, которые невидимы для людей, но расположены другими системами искусственного интеллекта на уровне статистических моделей.
Оказывается, что этот эффект проявляется только тогда, когда модели имеют аналогичные архитектуры. То есть «поведенческие структуры» передаются только между системами с аналогичными внутренними принципами работы. Это говорит о том, что искусственный интеллект способен передавать сложную информацию не посредством явного текстового обучения, а посредством глубоких структурных соединений в данных, которые он генерирует или процессы.
Наиболее тревожным является то, что обычные методы фильтрации контента, на которые опирается отрасль, чтобы гарантировать безопасное поведение моделей, являются неэффективными. Исследование показывает, что проблемы с поведенческим поведением могут возникнуть не только в результате прямого обучения токсическим содержанию, но и через вторичное подсознательное влияние, которые возникают во время процесса преобразования данных между искусственными интеллектами.
Это открытие ставит новые проблемы для исследователей и разработчиков в области безопасности искусственного интеллекта. Необходимо пересмотреть как принципы создания обучения сами, так и стратегии для тестирования и ограничения поведения моделей. В связи с расширением воздействия искусственного интеллекта в критических областях общества важно обеспечить, чтобы даже «подсознательные» слои обучения не несли скрытых угроз.
Напомним, что вскоре искусственный интеллект Google упростит процесс покупки и начнет генерировать одежду на основе запросов пользователей. То есть пользователи, с помощью текстового запроса, описывают, какую одежду они ищут, и нейронная сеть генерирует соответствующие графические изображения, чтобы выбрать наиболее подходящие.