Лучшие модели ИИ сравнялись с людьми в тестах на аналогичное мышление

За последние несколько месяцев произошел тонкий, но фундаментальный сдвиг в развитии искусственного интеллекта: в серии задач по аналогии большие языковые модели впервые стабильно достигли точности людей, показав при этом, что они думают по-другому. Команда из Университета Брауна и Университета Маккуори провела серию тестов, в которых участникам человеческого и искусственного интеллекта было предложено вывести скрытое правило соответствия между словами и абстрактными символами, а затем перенести это правило на новые примеры. Результаты были неоднозначными: Claude 3, GPT-4 и Llama-405B часто демонстрировали точность человеческого уровня, но спотыкались там, где люди могли легко изменить свою стратегию на лету. Итак, вопрос «умен ли искусственный интеллект?» поменял на более точное «умный — но по-другому».

Статья в журнале «Память и язык» посвящена двум типам задач — на «смысловую структуру» и «смысловое содержание». В первом испытуемым показывали такие пары, как «квадрат⇒ CCC» и «круг⇒ CC», а затем просили продолжить аналогию с «овалом». Чтобы ответить правильно, надо понимать, что «прямоугольник» — это вытянутый квадрат, «овал» — вытянутый круг, и поэтому переход от прописных букв к строчным кодирует саму операцию «вытягивания».

Во втором типе правила более глубоко скрыты: например, тип символа («*» или «!») соответствует одному признаку (скажем, «млекопитающее/немлекопитающее»), а длина цепочки — другому (количество ножек). Здесь участнику нужно не выбирать ассоциацию, а реструктурировать внутреннее представление и переносить выведенное правило в новый контекст, который когнитивная психология описывает как «гибкое представление».. В таких материалах продвинутые модели часто демонстрируют уровень вывода, не уступающий человеческим, особенно в «содержательных» вариантах.

Но чуть-чуть меняется обстановка – и картина меняется. Когда исследователи просто перетасовали порядок обучающих пар, производительность моделей резко упала; на людях эта манипуляция почти не имела эффекта. ИИ оказался еще более чувствительным к «шуму»: добавление несущественных слов не мешало человеку, но снижало точность машин, как будто они пытались «прикрутить» к найденному правилу дополнительные элементы.

Отсюда осторожный вывод авторов: современные LLM демонстрируют способность к аналогиям (она действительно может возникнуть в результате масштабной статистической подготовки), но их механизмы явно не такие, как у людей. Равенство в точности не означает эквивалентность процесса.

Сила работы – в прочной изоляции инноваций. Задания составлены таким образом, чтобы исключить банальное механическое запоминание формата «увидел-повторил», чего особенно опасаются критики LLM. Этот подход продолжает линию более ранних наблюдений: еще в 2023 году группа Тейлора Уэбба зарегистрировала «новые» успехи GPT-¾ в абстрактных аналогиях, но вопрос о глубине этих способностей остается открытым. Новая серия тестов идет дальше: она не только проверяет ответ, но и «дергает за ниточки» — порядок примеров, отвлечение, переход между областями — и видит, где именно рвется ткань рассуждений.

На этом фоне заметно активизировались направления, связанные с темой. Исследователи из Стэнфорда предположили метод аналогичных подсказок – предлагать моделям решение путем самостоятельной генерации соответствующих аналогий – в ряде задач это повышает эффективность и практически имитирует поиск человеком подобных примеров в памяти. Параллельно появляется все больше работ, показывающих, что по мере увеличения масштаба модели начинают воспроизводить человеческие когнитивные иллюзии: они становятся сильнее в абстракциях, но склонны к «интуитивным» ошибкам. Все это подчеркивает гибридная природа рассуждений LLM – на стыке статистики и символизма.

Практические последствия этой, казалось бы, академической дискуссии вполне ощутимы. Если модель действительно способна переносить выведенные правила в новые контексты, она становится не просто инструментом для написания или повседневного программирования кода, а инструментом для выдвижения научных гипотез, поиска нетривиальных инженерных решений, проектирования материалов и устройств. Однако для этого нужны правильные «учебники» — разработчики задач, которые наказывают слабые, поверхностные стратегии и поощряют настоящий перенос.

Уже появляются зачатки «обучения по аналогии» — от конкретных схем подсказок до процедур отбора примеров — и именно они могут превратить разовые успехи в повторяемые рабочие процессы.

Существует также очевидная этическая подоплека. Уязвимость моделей к перестановкам входных данных и нерелевантному шуму в реальных задачах — от юридического анализа до медицины — грозит «убедительными, но ошибочными» ошибками. Именно поэтому утверждается принцип человекоцентрированного надзора: пусть ИИ строит передачу и предлагает альтернативы, но окончательную оценку оставьте эксперту, который точно понимает, почему рассуждения могут «потерпеть неудачу».

Между тем сама идея «аналогии как ядра общего интеллекта» выходит за рамки когнитивной психологии и мигрирует в инженерные спецификации. В последних обзорах аналогии называются «сквозным навыком» будущих систем AGI — тем мостом, который соединяет обучение на прошлых данных с созданием правил для ситуаций, которых в данных не существовало. Новые результаты показывают: мост действительно строится, но из другого материала и по другой расчетной схеме, чем у людей.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх