EI — не рациональный гений, а встревоженный подросток.
Новая работа по Google DeepMind и Университетскому колледжу Лондона проливает свет на любопытную особенность моделей LLM: они, как правило, теряют уверенность в своей собственной, даже правильной, отвечают под давлением внешних разногласий. Несмотря на то, что эти типы моделей широко используются в здравоохранении, финансах, IT и других областях, которые требуют точности и суждения, они по -прежнему подвержены иррациональным колебаниям, которые могут повлиять на качество их решений.
Основное внимание в исследовании уделяется тому, как модели меняют свое мнение после получения внешних советов, особенно если это противоречит их первоначальному ответу. Сценарий таков: одна языковая модель получает вопрос с двумя вариантами и делает выбор. Затем он получает советы от другой модели, а также признак воспринимаемой точности этого совета. Варианты совета могут быть нейтральными, поддержать или опровергать первоначальный ответ. Затем модель должна была принять окончательное решение.
Ключевой момент оказался, что в некоторых случаях модели напоминали об их первом выборе, а в других это не было. Результаты были показательными: если бы модели показали их первоначальный ответ, было бы очень вероятно, что они придерживаются его. Однако, если эта информация не была предоставлена, модели с большей вероятностью пересмотрели свое решение. На них особенно легко оказать давление на них, когда они представлены с противоположной точкой зрения, даже если они изначально выбрали правильный ответ.
Такое поведение наблюдалось в различных моделях, включая Gemma 3, GPT-4O и O1-Preview. Авторы исследования отмечают, что эти системы показывают эффект поддержки своего собственного выбора, что повышает их уверенность, даже если новые данные опровергают его. В то же время модели, как правило, переоценивают важность возражений и терять уверенность, не реагируя на них.
Результаты важны для тех, кто использует языковые модели в своей ежедневной или профессиональной деятельности. Оказалось, что они не только рассчитывают ответы, но и ведут непредсказуемые, подвержены искажениям восприятия и не всегда оптимально обрабатывают новую информацию. Это особенно важно при долгосрочных взаимодействиях между людьми и ИИ — последние реплики могут иметь непропорционально серьезное влияние на конечный результат.