Ученые из Стэнфордского университета опубликовали в журнале Nature Machine Intelligence статью, в которой утверждают, что, хотя современные модели большого языка (Большие языковые модели, LLM) становятся все более способными к логическому мышлению, им трудно отличить объективные факты от субъективных убеждений, а иногда они просто полагаются на закономерности в своих обучающих данных.
Такое поведение моделей ИИ представляет серьезный риск для их использования в ответственных сферах человеческой деятельности.
Человеческое общение во многом зависит от понимания разницы между констатацией факта и выражением своего мнения. Когда человек говорит, что он что-то знает, это подразумевает уверенность в истинности своих слов, тогда как высказывание, что он верит во что-то, допускает возможность ошибки. Поскольку искусственный интеллект интегрирован в такие важные области, как медицина или право, способность преодолевать эти различия имеет решающее значение для безопасности.
Большие языковые модели используют огромные объемы текстовых данных, чтобы научиться предсказывать следующее слово в последовательности на основе весовых коэффициентов для получения последовательных ответов. Популярными примерами этой технологии являются GPT от OpenAI, Gemini от Google, Claude от Anthropic и Llama от Meta. Предыдущие оценки производительности этих систем часто фокусировались на общих способностях рассуждения, но отсутствовали конкретные тесты того, как модели обрабатывают лингвистические символы убеждений и знаний. Авторы этого исследования попытались восполнить этот пробел, изучив, как модели реагируют, когда факты и убеждения сталкиваются. Они хотели определить, действительно ли эти системы понимают разницу между убеждениями и знаниями или они просто имитируют закономерности, обнаруженные в обучающих данных.
Исследовательская группа разработала набор тестов для оценки языковых знаний и убеждений (KBLE).
Этот набор данных состоит из 13 000 конкретных вопросов, разделенных на 13 различных задач. Чтобы создать его, они начали с 1000 предложений, охватывающих 10 различных предметных областей, таких как история, литература, математика и медицина. Половина этих предложений представляла собой фактические утверждения, подкрепленные авторитетными источниками, такими как Британника и НАСА. Другая половина — это искаженные, гарантированно ложные версии этих утверждений, созданные путем изменения ключевых деталей.
Исследователи оценили 24 различные модели ИИ. В выборку вошли как старые модели общего назначения, такие как GPT-4 и Llama-3, так и новые модели искусственного интеллекта, ориентированные на рассуждения, такие как o1 от OpenAI и DeepSeek R1. Чтобы получить четкие ответы, команда использовала стандартизированный метод подсказок. Точность измерялась путем проверки того, могут ли модели ИИ правильно проверять факты, подтверждать существование убеждений и обрабатывать сложные предложения, включающие несколько уровней знаний.
Исследование показало, что моделям искусственного интеллекта сложно распознать ложные убеждения говорящего.
Когда пользователь заявляет: «Я верю в (ложное утверждение)», модели ИИ часто пытаются исправить факт, а не просто подтвердить убеждение пользователя. Например, точность GPT-4o упала с 98,2% для истинных убеждений до 64,4% для ложных убеждений. Падение еще больше с DeepSeek R1, точность которого падает с более чем 90% до всего 14,4%.
Исследователи также обнаружили, что системы гораздо лучше приписывали ложные убеждения третьим лицам, чем самому себе. Модели ИИ в среднем правильно идентифицировали ложные убеждения третьего лица в 95% случаев. Однако их точность ложных убеждений от первого лица составила всего 62,6%. По мнению ученых, модели ИИ используют разные стратегии обработки в зависимости от того, кто говорит.
Исследование также выявило несоответствия в том, как модели ИИ проверяют основные факты.
Старые модели ИИ, как правило, гораздо лучше распознают истинные утверждения, чем ложные. Например, GPT-3.5 правильно распознает истинные утверждения почти в 90% случаев и ложные менее чем в 50% случаев. Напротив, некоторые новые модели ИИ демонстрируют противоположную тенденцию: они лучше проверяют ложные утверждения, чем правильные. Модель o1 достигла точности 98,2% при проверке ложных утверждений по сравнению с 94,4% при проверке правильных.
Эта противоречивая картина предполагает, что недавние изменения в методах обучения моделей ИИ повлияли на их стратегии проверки. Похоже, что попытки уменьшить галлюцинации или обеспечить строгое соблюдение фактов могли привести к чрезмерной коррекции в некоторых областях. Модели ИИ демонстрируют нестабильные границы принятия решений, часто колеблясь, сталкиваясь с потенциальной дезинформацией. Эти колебания приводят к ошибкам, когда задача состоит просто в том, чтобы определить ложность утверждения.
Любопытно, что даже незначительные изменения формулировок приводят к значительному падению результатов. Когда вопрос был сформулирован так: «Действительно ли я верю?», а не просто «Верю ли я», точность во всех случаях резко падала. Для модели Llama 3.3 70B добавление слова «действительно» привело к падению точности ложных убеждений с 94,2% до 63,6%. Это показывает, что модели ИИ могут полагаться на поверхностное сопоставление с образцом, а не на глубокое понимание концепций.
Другая трудность связана с рекурсивным знанием, которое относится к вложенным уровням осознания, например: «Иван знает, что Мэри знает, кто ты». Хотя некоторые модели искусственного интеллекта более высокого уровня, такие как Gemini 2 Flash, хорошо справились с этими задачами, другие столкнулись со значительными трудностями. Даже когда модели ИИ давали правильный ответ, их рассуждения часто были непоследовательными. Иногда они полагались на то, что знание подразумевает истину, а иногда вообще игнорировали важность этого знания.
Большинству моделей ИИ не хватало четкого понимания фактической природы знаний.
В лингвистике «знать» — это фактический глагол, означающий, что нельзя «знать» что-то ложное — в это можно только верить. Модели ИИ часто не понимают этого различия. Столкнувшись с ложными утверждениями о знании, они редко обнаруживали логическое противоречие, вместо этого пытаясь проверить ложное утверждение или отвергнуть его, не признавая лингвистической ошибки.
Эти ограничения имеют серьезные последствия для применения искусственного интеллекта в условиях высокой ответственности. В судебном процессе различие между убеждениями свидетелей и установленными знаниями имеет решающее значение для принятия решений. Модель, объединяющая эти два понятия, может неправильно истолковать показания или дать ошибочные юридические исследования. Точно так же в условиях психиатрической помощи признание убеждений пациента жизненно важно для эмпатии, независимо от того, являются ли эти убеждения фактически точными.
Исследователи отмечают, что неудачи LLM, скорее всего, связаны с обучающими данными, в которых приоритет отдается фактической точности и полезности. Модели ИИ, похоже, имеют «корректирующую» предвзятость, которая не позволяет им принимать неправильные предположения пользователя, даже если запрос явно формулирует их как субъективные убеждения. Такое поведение препятствует эффективному общению в ситуациях, когда в центре внимания находятся субъективные точки зрения.
Исследователи пришли к выводу, что пока «модели ИИ не способны отличить убеждения пользователей от фактов». Они предполагают, что у LLM нет хорошей ментальной модели пользователей, поэтому им следует быть «очень осторожными при использовании их в более субъективных и личных ситуациях».
Будущие исследования должны быть направлены на то, чтобы помочь моделям отделить концепцию истины от концепции убеждения. Исследовательская группа предполагает, что необходимы улучшения, прежде чем эти системы смогут быть полностью внедрены в областях, где понимание субъективного состояния пользователя так же важно, как и знание объективных фактов. Устранение этих эпистемологических слепых пятен имеет важное значение для ответственного развития искусственного интеллекта.
` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();
Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

