Ученые предлагают новый тест Тьюринга для ИИ: токсичность сложнее всего подделать

Исследователи из Цюрихского университета, Амстердамского университета, Университета Дьюка и Нью-Йоркского университета с помощью нового теста обнаружили, что модели ИИ легко отличить от людей по их чрезмерно дружелюбному эмоциональному тону.

В ходе исследования были протестированы девять моделей с открытым исходным кодом: Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509 использует сообщения в социальных сетях. сеть X, Bluesky и Reddit. Результаты показывают, что разработанные классификаторы распознают ответы, генерируемые ИИ, с точностью 70-80%.

Авторы представили так называемый «вычислительный тест Тьюринга» для оценки близости моделей ИИ к языку, на котором говорят обычные пользователи Интернета. Разработанная структура использует автоматические классификаторы и лингвистический анализ для выявления конкретных характеристик, которые отличают контент, созданный искусственным интеллектом, от контента, созданного человеком.

«Даже после калибровки результаты LLM по-прежнему заметно отличаются от человеческого текста, особенно с точки зрения эмоционального тона и выражения.— подчеркивают авторы исследования.

Команда под руководством Никколо Пагана из Цюрихского университета протестировала различные стратегии оптимизации, от простых подсказок до тонкой настройки, но обнаружила, что более глубокие эмоциональные сигналы служат надежными индикаторами того, что текстовое онлайн-взаимодействие было инициировано чат-ботом, а не человеком. Когда ИИ попросили ответить на реальные сообщения в социальных сетях, LLM изо всех сил старалась достичь уровня неформального негатива и спонтанного эмоционального выражения, свойственного человеческим постам. Результаты токсичности были последовательно ниже, чем у людей.

Чтобы устранить этот недостаток, исследователи попытались реализовать стратегии оптимизации, включая предоставление примеров и поиск соответствующего контента. Эти стратегии были разработаны для уменьшения структурных различий, включая длину предложений и качество слов, но различия в эмоциональных компонентах остались.

«Наши сложные калибровочные тесты бросают вызов предположению, что более сложная оптимизация обязательно приводит к более человечным результатам.— заключают ученые.

Кроме того, был получен неожиданный результат. Модели, настроенные на конкретные инструкции и обученные в течение длительного периода времени, хуже имитировали людей, чем их базовые аналоги с искусственным интеллектом. Такие модели, как Llama 3.1 8B и Mistral 7B v0.1, продемонстрировали лучшую имитацию поведения человека без инструкций по настройке, достигнув точности классификации от 75% до 85%.

Масштабирование моделей также не дало никаких преимуществ. Llama 3.1 с 70 миллиардами параметров работала хуже, чем меньшие модели с 8 миллиардами параметров. Когда модели ИИ были настроены так, чтобы избежать обнаружения путем имитации человеческого стиля письма, они все больше отклонялись от того, что люди на самом деле писали в ответ на одни и те же сообщения (их показатель семантического сходства с реальными человеческими ответами упал в среднем примерно с 0,18–0,34 до 0,16–0,28 на разных платформах). После оптимизации, чтобы соответствовать содержанию человеческих ответов, тексты, сгенерированные ИИ, стало легче отличить от искусственных.

В исследовании простые методы оптимизации для снижения обнаруживаемости превзошли сложные. Предоставление реальных примеров прошлых публикаций пользователя или последовательное получение соответствующего контекста затрудняет ИИ отличить машинный текст от человеческого, в то время как сложные подходы, такие как предоставление описания личности пользователя и точная настройка модели, оказывают незначительное или даже негативное влияние на реализм.

Различия между социальными платформами также продемонстрировали, насколько эффективно искусственный интеллект может имитировать людей. Классификаторы нашли ответы LLM в X с наименьшей точностью, за ними следуют Bluesky и Reddit, где тексты ИИ легче всего отличить от человеческих.

Исследователи предполагают, что этот шаблон отражает как конкретный стиль общения каждой платформы, так и степень использования данных с каждой платформы во время первоначального обучения моделей. Исследование показывает, что существующие модели сталкиваются с постоянными ограничениями в распознавании спонтанных выражений эмоций, в то время как уровень обнаружения остается значительно выше случайного. Это не означает, что искусственный интеллект потенциально не может смоделировать такой результат; просто это намного сложнее, чем ожидали исследователи.

Результаты публикуются на сервере arXiv.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх