Новое исследование Google показывает, что сегодня только один из трёх ответов чат-ботов является правильным. И это в лучшем случае.
Недавно компания провела проверку достоверности информации, предоставляемой программами. FACTS Benchmark Suite (pdf), как называется серия тестов, показала, что в лучшем случае чат-боты выдают верную информацию в 69% случаев. Они протестировали основные системы, которые мы имеем сегодня, такие как Gemini, Claude, Grok и ChatGPT. Чат-бот Google Gemini показал лучшие результаты (сомнительные 69% правильных ответов). Почему это открытие важно?
Десятки тысяч людей по всему миру ежедневно взаимодействуют с этими программами. Уровень доверия к чат-ботам со стороны многих людей необъяснимо высок. Но речь идет не только о простых пользователях. Эти системы активно используются в финансах и бизнесе. Где одна неправильно поставленная десятичная точка может стоить убытков в десятки тысяч долларов. Но есть также планы по интеграции инструментов GenAI в здравоохранение и управление критической инфраструктурой. И там ошибка может оказаться фатальной.
Тест, разработанный совместно с Kaggle, проверяет фактическую точность ответов на вопросы практического характера. Один из тестов здесь касался параметрических знаний. То есть давать ответы на вопросы, которым модель была предварительно обучена. В другом тесте проверялась его способность получать правильную информацию из Интернета с помощью веб-инструментов. Предпоследний проверяет его способность извлекать и передавать информацию из документа без предоставления ложных сведений. Четвертый тестировал мультимодальное понимание. То есть его умение правильно читать диаграммы, графики и изображения. Именно на последнем тесте ни одной из моделей не удалось достичь даже 50% успеха. С другой стороны, ошибка в бизнес-схеме по ошибке опустошит кошелек компании. Но что произойдет, если данные будут неверно истолкованы при анализе результатов рентгена, кардиограммы или МРТ? Или те, что исходят от атомной электростанции?
`, // — БАННЕР 2 (Новости Google) — `
`, // — БАННЕР 3 (Viber) — `
` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();
Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

