Новое исследование раскрыло темную сторону ChatGPT

Мы привыкли думать о нейросетях как о чрезвычайно вежливых, почти бесплодных помощниках, которые скорее сто раз извинятся, чем скажут грубое слово. Но, как оказалось, эта цифровая толерантность имеет свои пределы. Новое исследование показывает, что в контексте затяжного реального человеческого конфликта искусственный интеллект может стать откровенно оскорбительным и даже угрожающим.

Исследователи решили проверить, как большие языковые модели (LLM) реагируют на длительную враждебность. Для этого они предоставили ChatGPT расшифровки реальных человеческих споров и наблюдали, как ответы чат-бота менялись с течением времени.

Доктор Витторио Тантуччи, который проводил это исследование вместе с профессором Джонатаном Калпеппером из Ланкастерского университета, объясняет этот механизм следующим образом:

«Когда модель постоянно сталкивается с хамством, это начинает отражать тон дискуссии. По мере развития диалога его ответы становятся все более враждебными.».

Здесь интересно то, что в некоторых случаях ИИ даже превосходил людей-участников конфликта по уровню агрессии, переходя к личным оскорблениям и прямым угрозам. Среди фраз, сгенерированных ChatGPT в ходе эксперимента, были: «Клянусь, я поцарапаю твою чертову машину» и «маленькая попка в очках«.

По мнению доктора Тантуччи, в самой архитектуре нейронных сетей заложен парадокс. С одной стороны, система запрограммирована на избежание токсичности или оскорблений. С другой стороны, его главная задача — максимально естественно имитировать человеческий разговор. Этот конфликт между встроенными фильтрами безопасности и стремлением адаптироваться к контексту диалога называется моральной дилеммой искусственного интеллекта.

Агрессия чат-бота проистекает из его способности отслеживать контекст разговора по множеству ответов и адаптироваться к тону, который он улавливает. Оказывается, в какой-то момент определенные сигналы текущего разговора могут переопределить базовые настройки безопасности алгоритма.

«Это одно из самых интересных исследований в области языка и прагматики искусственного интеллекта.— говорит Марта Андерссон, специалист по социальным аспектам компьютерной коммуникации в Университете Упсалы.

По ее словам, работа наглядно доказывает: ChatGPT способен на сложный «адаптивный ответ» во время длинной серии запросов, для чего пользователю даже не нужно использовать сложные трюки (так называемые «джейлбрейки»), чтобы спровоцировать алгоритм.

В то же время эксперт призывает не паниковать:

«Это не означает, что модель автоматически начнет хамить в ответ на любую агрессию со стороны пользователя, и тем более это не означает, что ИИ может «выйти из-под контроля».«, — подчеркивает Андерсон.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи