Способность ИИ понимать свои собственные слова оказалась «Потемкин»

Ученые из Массачусетского технологического института, Гарвард и Чикагского университета, предложили термин «понимание потемкина», чтобы описать несоответствие, обнаруженное в крупных языковых моделях, между правильными ответами на вопросы и неспособностью по -настоящему понять, чтобы применить эту информацию на практике.

Термин поступает из и без того дискредитированной легенды о деревнях Потемкин: когда императрица Кэтрин II посетила Крым в 1787 году, принц Грегори Потемкин показывает своим декорам, что он утверждает, что он настоящие деревни. «Мышление Потемкина» отличается от «галлюцинаций», в которых искусственный интеллект уверенно дает ответы, которые явно не являются правдой — это неспособность понять понятия в том, как человек делает. В этой ситуации модель успешно проходит контрольный тест, но не понимает понятий, связанных с его собственным ответом.

«Потемкины — это концептуальные знания, а галлюцинации — это фактические знания — галлюцинации придумывают ложные факты; Потемкины приходят с ложными отношениями между понятиями«-Измените авторов его термин. Обследование дает четкий пример. Модель OpenAI GPT-4O было предложено объяснить схему перекрестного переодевания ABAB-она дала правильный ответ, указывая на чередующие рифмы в первой и третьей, а во втором и четвертом рядах.

Коварная природа неудач Потемкина заключается в том, что они обесценивают индикаторы искусственного интеллекта. Модели тестируются, чтобы определить их компетентность, но если тест измеряет только их производительность, а не их способность применять материалы вне сценариев, на которых они были проверены, результаты не имеют смысла. Исследователи разработали свои собственные показатели, чтобы оценить, насколько распространены неудачи Потемкина, и они были вездесущими в тестируемых моделях: Llama-3.3 (70b), GPT-4O и Flash, Depe 3.5 (Sonnet) QWEN2-VL (72B).

Один набор тестов фокусируется на литературных методах, теории игр и психологическом предвзятости. Он обнаруживает, что модели правильно идентифицируют необходимые концепции (94,2%), но часто не могут классифицировать эти концепции (в среднем 55% отказа), генерируют примеры (40% отказа) и редактировать иллюстрации описанных понятий (40%). Как и в случае с схемами рифмы, они правильно объясняют литературные методы, используемые в сонете Шекспира, но испытывают трудности с обнаружением, воспроизведением или редактированием сонета.

«Существование случаев Потемкина означает, что поведение, которое показывает понимание у людей, не показывает понимания в модели великого языка. Это означает, что нам либо нужны новые способы проверки больших языковых моделей, чтобы ответить на те же вопросы, которые используются для тестирования людей, либо для поиска способов исключить это поведение в модели большого языка» — Ученые говорят.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх