В последний день Шипмаса, который обещал 12 дней показа, анонсирования и обсуждения новых функций ИИ, OpenAI представила две большие языковые модели следующего поколения o3 и o3-mini, обладающие способностью рассуждать.
OpenAI отмечает, что сегодня речь не идет о выпуске новых языковых моделей. В компании пояснили, что обучение этих нейронных сетей еще не завершено и окончательный результат может отличаться от показаний на данный момент. В то же время OpenAI принимает предложения исследовательского сообщества по тестированию этих моделей, прежде чем выпустить их для общего использования. Компания еще не решила, когда это произойдет.
В сентябре этого года OpenAI выпустила мыслящую ИИ-модель o1 (под кодовым названием Strawberry). Решение назвать новые модели o3 связано с тем, что таким образом компания решила избежать путаницы (или конфликта товарных знаков) с британской телекоммуникационной компанией O2.
Термин «модель рассуждения ИИв последнее время стало очень модно в сфере разработки технологий искусственного интеллекта и машинного обучения. Но по сути это просто означает, что для решения проблемы машина разбивает инструкции на более мелкие задачи. В конечном итоге это позволяет добиться более точных результатов. «Рассуждающие» модели ИИ часто показывают весь процесс принятия решений и то, как ИИ пришел к конкретному ответу, а не просто дают окончательный ответ без объяснений.
OpenAI утверждает, что ее новая модель o3 превосходит предыдущие рекорды производительности по всем направлениям. В тесте ARC-AGI, специально разработанном для сравнения возможностей искусственного интеллекта с человеческим интеллектом, модель o3 превзошла o1 более чем в три раза, продемонстрировав результат 88%.
Новая модель также на 22,8% быстрее своей предшественницы при написании кода (тест SWE-Bench Verified) и даже превзошла ведущего ученого OpenAI в спортивном программировании.
Модель o3 почти справилась с одним из самых сложных математических тестов AIME 2024, пропустив всего один вопрос, а также набрала 87,7% по тесту GPQA Diamond, что значительно выше, чем результат любого эксперта-человека.
В самых сложных математических и логических тестах, которые обычно сбивают с толку любой другой ИИ, o3 решил 25,2 процента задач — оценки других моделей не превышали двух процентов.
Существенным преимуществом o3, как и o1, является способность моделей «рассуждать» и эффективно проверять собственные факты, чтобы избежать различного рода ошибок и галлюцинаций. Однако разработчики OpenAI заявили, что процесс проверки фактов перед выдачей ответа вызывает небольшую задержку — от нескольких секунд до нескольких минут (в зависимости от сложности вопроса). Кроме того, задержка связана с тем, что модель определяет, соответствует ли запрос пользователя политике безопасности OpenAI. Компания утверждает, что при тестировании нового алгоритма безопасности o1 он соблюдал правила безопасности гораздо лучше, чем предыдущие модели, включая GPT-4.
И всё же, как отмечают журналисты TechCrunch, главный недостаток «рассуждающие» моделей заключается в том, что для их работы требуется гораздо больше вычислительной мощности, поэтому их использование обходится гораздо дороже, чем «обычные«решения.