Почему ИИ не поставит правильный диагноз, хотя он знает больше, чем врачи?

Сегодняшние модели большого языка (LLM) читают практически все медицинские учебники, научные статьи и клинические протоколы, существующие в цифровой форме. Во многих тестах они показывают результаты, превосходящие результаты студентов-медиков. Однако если вы спросите чат-бота с искусственным интеллектом о своих симптомах, вероятность получения неправильного или опасного диагноза остается высокой. Остановимся подробнее.

Чат-боты с искусственным интеллектом уже проходят медицинские осмотры лучше, чем большинство врачей. Ожидания от этих систем высоки: уже появляются службы, гарантирующие, что они будут распознавать болезни по симптомам быстрее, чем врачи. Но когда обычные люди пытаются использовать их, чтобы понять свои симптомы, результаты оказываются не лучше, чем без всякого ИИ. Крупномасштабное исследование, опубликованное в журнале Nature Medicine, впервые показало, где именно разрывается цепь между модельными знаниями и реальной пользой для пациентов. И причина неожиданная: проблема не в знаниях ИИ, а в том, как люди с ним разговаривают.

Пользователь пытается понять свои симптомы с помощью чат-бота с искусственным интеллектом.

Как ИИ ставит диагнозы: результаты нового исследования

Исследование провели ученые Оксфордского университета в сотрудничестве с организацией MLCommons и другими учреждениями. Почти 1300 участникам были даны описания десяти типичных медицинских ситуаций, и они были случайным образом распределены: один использовал чат-боты (GPT-4o, Llama 3 и Command R+), а другой – любой известный источник информации (контрольная группа).

После взаимодействия с ботом участникам задают два вопроса: какое заболевание могло бы объяснить описанные симптомы и куда обратиться за помощью. Когда те же чат-боты были протестированы «самостоятельно», без участия человека, они определили правильное заболевание в 94,9% случаев. Но когда с ботами работали реальные люди, точность упала до менее 34,5 процента.. При этом участники группы искусственного интеллекта показали себя не лучше, чем контрольная группа, которая вообще не использовала чат-ботов.

Другими словами, Чат-бот, блестяще отвечающий на экзаменационные вопросы, оказывается бесполезным, когда за клавиатуру садится обычный человек. И это еще больше запутывает тему, ведь известны отдельные случаи, когда ChatGPT удавалось диагностировать состояния, при которых врачи долгое время не могли помочь, тем самым только укрепляя веру людей в «медицину через чат».

Почему искусственный интеллект проходит медицинские осмотры, но не помогает пациентам

В этом и заключается парадокс: языковые модели уже получают почти идеальные баллы на экзаменах на получение медицинской лицензии. Метаанализ 120 тестов показал, что GPT-o1 достиг точности 95,4% в вопросах медицинских лицензий, DeepSeek-R1 достиг точности 92%, а GPT-4o достиг точности 89,4%. Проще говоря, эти модели знают медицину лучше, чем многие выпускники медицинских вузов.

Но экзамен – это не прием у врача. На экзамене модель получает четко сформулированный вопрос со всеми необходимыми данными. Реальная жизнь другая. Когда исследователи изучили транскрипции диалогов, они обнаружили, что бот часто где-то в разговоре упоминал правильный диагноз, но пользователи его не замечали и не запоминали. В других случаях люди предоставили неполную информацию, и бот неверно истолковал ряд ключевых деталей. Проблема была не в медицинских знаниях, а в общении человека и машины.

Представьте: у вас есть энциклопедия с правильным ответом, но она написана так, что вы не можете легко найти нужную страницу. Знания есть, просто вы не можете их найти. Риск выше еще и потому, что бот часто соглашается с пользователем, а не спорит.уточняя детали и разговаривая как врач на приеме у врача.

Сравнение: на экзамене искусственный интеллект отвечает правильно, но в реальном диалоге теряет контекст

Почему ИИ неправильно понимает симптомы пользователей

В отличие от пробных тестов, реальные люди не предоставляют ботам всю необходимую информацию. Они также с трудом интерпретировали варианты, предлагаемые чат-ботом, неправильно понимали его или просто игнорировали его советы.

Проблемы в общении человека и искусственного интеллекта можно разделить на несколько типов:

Неполное описание симптомов.. Пациенты не знают, какие детали важны, и упускают ключевые факты – в отличие от врача, который умеет задавать уточняющие вопросы.
Потеря важной информации. Бот может назвать правильный диагноз в середине разговора, но пользователь не обратил на это внимания в потоке текста.
Неверное толкование. Люди понимают рекомендации бота по-своему, иногда прямо противоположно тому, что они означают.

Некоторые эксперты отмечают, что боты должны сами задавать уточняющие вопросы — так же, как это делают врачи. «Действительно ли пользователь несет ответственность за то, чтобы знать, какие симптомы следует выделить, или это отчасти задача модели — знать, о чем спрашивать?— отмечают исследователи.

Почему врач понимает пациента лучше искусственного интеллекта

Существует принципиальная разница между тем, как врач общается с пациентом, и тем, как это делает чат-бот. Медицину часто определяют как искусство, а не науку.. Консультирование – это больше, чем просто определение правильного диагноза: оно включает в себя интерпретацию истории болезни пациента, преодоление неопределенности и совместное принятие решений.

С этой целью на протяжении десятилетий существует модель Калгари-Кембриджа — метод структурирования медицинских консультаций, который охватывает все: от начала встречи и сбора информации до совместного объяснения результатов и планирования лечения. Этот подход предполагает установление доверия с пациентом, сбор информации посредством точных вопросов, понимание его проблем и ожиданий, четкое объяснение результатов и согласование плана действий. Все это зависит от человеческого общения, адаптивного взаимопонимания, разъяснений, деликатных наводящих вопросов, контекстно-зависимых суждений и доверия. Эти качества нельзя свести к распознаванию образов.

Другими словами, врач учится не только знать ответ, но и уметь «добыть» его у пациента, который не всегда понимает, что с ним происходит. Чат-бот пока не знает, как это сделать.

Врач просматривает краткую информацию о пациенте, созданную системой искусственного интеллекта.

Где ИИ уже сегодня действительно полезен, так это в здравоохранении

Означает ли все это, что ИИ бесполезен в здравоохранении? Нет. Но согласно исследованию ни один из протестированных чат-ботов не был «готов к использованию в сфере непосредственного ухода за пациентами».

Авторы исследования предлагают думать о чат-ботах не как о врачах, а скорее как о секретарях: они отлично умеют организовывать информацию, составлять резюме и структурировать сложные документы. Именно для таких задач ИИ уже реально применяется в медицине — например, для составления клинических карт, обобщения историй болезни или подготовки направлений. Для решения специализированных задач ИИ теперь может заранее прогнозировать рак при работе со структурированными медицинскими данными, а не в форме свободного диалога.

Каждый шестой взрослый американец теперь обращается к чат-ботам с искусственным интеллектом за медицинской информацией хотя бы раз в месяц, и это число продолжает расти. Между тем крупные разработчики OpenAI и Anthropic уже выпустили специализированные медицинские версии своих чат-ботов, и эксперты полагают, что в аналогичных исследованиях они могут показать разные результаты. Но пока это только надежда.

Ведь диагностика – это ответственный акт. ИИ не может нести ответственность за ошибку и не может проявлять сочувствие — две вещи, которые остаются в основе истинного исцеления.

Главный урок этого исследования — несоответствие эталонных значений реальности. Сдать экзамен и помочь живому человеку – разные задачи. Точно так же, как сдача теоретического экзамена по вождению не делает человека хорошим водителем, блестящие результаты на медицинских тестах не делают языковую модель надежным диагностом. Это требует сочувствия, адаптивности и способности работать с тем, что пациент не может или не хочет сказать. Пока эти качества остаются человеческой территорией.