Исследование показало: потребительские боты с искусственным интеллектом ставят неправильный диагноз в 80% случаев

Универсальность популярных чат-ботов в плане поиска необходимой информации, как оказывается, не делает их пригодными для постановки точных медицинских диагнозов на основе ограниченных данных. Чат-боты ставят неправильный диагноз более чем в 80% случаев, что делает их непригодными в качестве замены консультации с настоящим медицинским работником.

В исследовании, опубликованном в Jama Network Open и цитируемом Financial Times, использовались 29 клинических случаев из медицинской справочной литературы для проверки диагностической эффективности популярных чат-ботов. Исследование показало, что при наличии ограниченной информации о симптомах большие языковые модели с трудом выбирают возможные диагнозы и часто ограничиваются одним вариантом, на который нельзя положиться при дальнейшем лечении. Если входные данные достаточно подробные, таких проблем с точной диагностикой уже не наблюдается.

В ходе эксперимента медицинские данные, включая историю болезни, результаты обследований и результаты лабораторных исследований, поэтапно передавались чат-ботам. Чат-ботам задавали вопросы о диагностике заболевания и измеряли точность и полноту их ответов. Были протестированы десятки популярных чат-ботов, в том числе разработанные OpenAI, Anthropic, Google, xAI и DeepSeek. Без полной информации о пациенте все они демонстрируют склонность к неправильной диагностике более чем в 80% случаев. Чем полнее информация, тем точнее результаты. В лучших случаях точность превышает 90%; в среднем ошибочный диагноз встречается менее чем в 40%.

Google и Anthropic заявили, что их чат-боты настоятельно рекомендуют обращаться к специалистам, когда пользователи обращаются за медицинской помощью. В условиях использования OpenAI заявляет, что их не следует использовать для получения медицинской консультации, для чего требуется лицензия. xAI и DeepSeek отказались комментировать этот вопрос Financial Times. Некоторые из этих разработчиков создают узкоспециализированные медицинские модели. AMIE от Google, например, продемонстрировал хорошие результаты, но полностью полагаться на его выводы сложно, как отмечают медицинские эксперты, поскольку врач-человек во многом полагается на визуальную оценку состояния пациента. Однако подобные AI-модели имеют место в регионах, где доступ к качественной медицинской помощи в классическом понимании ограничен.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи