Мы привыкли думать о нейросетях как о чрезвычайно вежливых, почти бесплодных помощниках, которые скорее сто раз извинятся, чем скажут грубое слово. Но, как оказалось, эта цифровая толерантность имеет свои пределы. Новое исследование показывает, что в контексте затяжного реального человеческого конфликта искусственный интеллект может стать откровенно оскорбительным и даже угрожающим.
Исследователи решили проверить, как большие языковые модели (LLM) реагируют на длительную враждебность. Для этого они предоставили ChatGPT расшифровки реальных человеческих споров и наблюдали, как ответы чат-бота менялись с течением времени.
Доктор Витторио Тантуччи, который проводил это исследование вместе с профессором Джонатаном Калпеппером из Ланкастерского университета, объясняет этот механизм следующим образом:
«Когда модель постоянно сталкивается с хамством, это начинает отражать тон дискуссии. По мере развития диалога его ответы становятся все более враждебными.».
Здесь интересно то, что в некоторых случаях ИИ даже превосходил людей-участников конфликта по уровню агрессии, переходя к личным оскорблениям и прямым угрозам. Среди фраз, сгенерированных ChatGPT в ходе эксперимента, были: «Клянусь, я поцарапаю твою чертову машину» и «маленькая попка в очках«.
По мнению доктора Тантуччи, в самой архитектуре нейронных сетей заложен парадокс. С одной стороны, система запрограммирована на избежание токсичности или оскорблений. С другой стороны, его главная задача — максимально естественно имитировать человеческий разговор. Этот конфликт между встроенными фильтрами безопасности и стремлением адаптироваться к контексту диалога называется моральной дилеммой искусственного интеллекта.
Агрессия чат-бота проистекает из его способности отслеживать контекст разговора по множеству ответов и адаптироваться к тону, который он улавливает. Оказывается, в какой-то момент определенные сигналы текущего разговора могут переопределить базовые настройки безопасности алгоритма.
«Это одно из самых интересных исследований в области языка и прагматики искусственного интеллекта.— говорит Марта Андерссон, специалист по социальным аспектам компьютерной коммуникации в Университете Упсалы.
По ее словам, работа наглядно доказывает: ChatGPT способен на сложный «адаптивный ответ» во время длинной серии запросов, для чего пользователю даже не нужно использовать сложные трюки (так называемые «джейлбрейки»), чтобы спровоцировать алгоритм.
В то же время эксперт призывает не паниковать:
«Это не означает, что модель автоматически начнет хамить в ответ на любую агрессию со стороны пользователя, и тем более это не означает, что ИИ может «выйти из-под контроля».«, — подчеркивает Андерсон.
Все важное из мира технологий прямо на ваш почтовый ящик.
Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

