Разве мыслительная цепь LLM не просто мираж?

Когда интеллектуальный ответ на ИИ — это просто копия учебника.

Исследователи из Университета Аризоны провели серию экспериментов, которые ставят под сомнение реальную способность современных моделируемых моделей мыслительной цепи («Цепочка, к COT) делать логические выводы за пределами знакомых шаблонов. В последние месяцы индустрия искусственного интеллекта активно развивает такие подходы, что позволяет предположить, что пошаговая логика позволяет искусственному интеллекту добиться большего успеха со сложными задачами. Тем не менее, накопленные данные показывают, что при малейшем отклонении от известных форматов ответы становятся нестабильными и часто теряют свою семантическую и логическую когерентность.

Чтобы проверить, насколько эти модели способны делать сводные выводы, ученые создали контролируемую среду, называемую Dataalchemy. В нем небольшие модели обучаются примерам двух примитивных текстовых преобразований-прилив и циклических смещений, а затем комбинациям этих функций в разных последовательностях. После обучения они были протестированы на задачи, которые различаются по типу, формату и длине входных данных из учебного набора. Например, модель, которая видела только примеры двух смен, должна была обработать задачу с двумя преобразованием гнили, зная только то, что каждый из них выглядел индивидуально.

Результаты показали, что при попытке применять ученые модели к неизвестным комбинациям модели часто дают либо правильные рассуждения с неправильными ответами, либо правильные результаты с нелогичными объяснениями на дороге. В то же время даже небольшое изменение длины текста или количество шагов в цепи приводит к резкому снижению точности. Другим критическим фактором является формат входных данных: добавление символов или букв к задаче, которая не участвовала в обучении, значительно ухудшает правильность результатов.

Ученые отмечают, что частичное улучшение с предварительным контролем под контролем (SFT) возможно, но это не свидетельствует о истинной способности суммировать. По их словам, текущие модели COT в основном являются структурированными сравнениями известных моделей, а не полного абстрактного мышления. Их тенденция к «сглаживанию бессмысленности» создает иллюзию надежности, которая особенно опасна в областях с высоким уровнем риска, таких как медицина, финансы и правоS Авторы призывают к тестированию систем на задачах, которые полностью выходят за рамки учебных данных, и разработать архитектуры, которые способны к более глубоким логическим выводам, а не только моделируемым мышлением.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх