Openai выпустил два I-моделя-они почти так же быстро, как O3-Mini и O4-Mini и могут работать на графическом процессоре

OpenAI выпустил два II-моделя для рассуждений, которые разработчик утверждает, что имеет аналогичные возможности с возможностями «O» моделей. Оба продукта доступны на платформе объятия.

Компания предлагает две разработки: более мощный GPT-ASS-120B, который требует графической карты NVIDIA для работы, в то время как более легкий GPT-BPT-20B требует ноутбука с 16 ГБ оперативной памяти. В последний раз Openai запустил проект с открытым исходным кодом, который был более пяти лет назад, когда это был GPT-2. Новые модели, по словам компании, могут отправить слишком сложные запросы в облачные системы, если они не могут обработать некоторые запросы самостоятельно.

Как признанный мировой лидер в индустрии искусственного интеллекта, Openai стремится сделать свои модели с открытым исходным кодом более мощными, чем существующие, и утверждают, что добились успеха. В кодировании кодирования тестов модели GPT-BPT-12B и GPT-CSS-20B достигли 2622 и 2516 очков соответственно, обыграв Deepeek R1, но за O3 и O4-Mini. В последнем экзамене человечества (HLE) GPT-CSS-12B и GPT-ASS-20B достигли 19% и 17,3% соответственно, чем O3, но выше, чем флагманские модели Deepeek и Alibaba QWEN.

Отмечено, что новые открытые модели галлюцинации Openai, т. Е. Они дают ответы, которые не верны уверенно, чаще, чем закрытые O3 и O4-Mini. Разработчик назвал этот результат ‘Ожидается, что меньшие модели имеют меньше знаний о мире, чем более крупные, продвинутые модели, и склонны к более выраженным галлюцинациям«В тесте Personqa модели GPT-OS-12B и GPT-ASS-20B галлюцинировали свои ответы соответственно в 49% и 53% случаев; для сравнения, для O3 и O4-Mini эти цифры составляют 16% и 36% соответственно.

OpenAI обучил свои открытые модели, используя те же процессы, что и закрытые модели, но оба использовали метод MOE (смеси экспертов), чтобы потреблять меньше параметров для ответа на вопросы. Например, GPT-ASS-120B имеет 177 миллиардов параметров, но активирует только 5,1 миллиарда на токен, что помогает повысить эффективность. Он также использует высококачественные силовые тренировки — процесс, чтобы отличить правильный от неправильного в моделируемых средах; Он используется для обучения моделей серии O. Открытые модели также используют аналогичный процесс ответов, который требует дополнительного времени и ресурсов.

OpenAI утверждает, что открытые модели подходят для использования в агентах искусственного интеллекта и способны получить доступ к веб-поиску и инструментам для выполнения кода Python. Подчеркивается, что они не являются мультимодальными, что означает, что они предназначены для работы только с текстом и не могут обрабатывать или генерировать изображения или звук. Модели доступны по лицензии Apache 2.0, которая считается одним из самых демократических. В то же время компания отказывается раскрывать, какие данные использовались для изучения.

OpenAI также провел отдельное исследование, чтобы убедиться, что гипотетические злоумышленники могут использовать новые модели в кибератаке или для разработки биологического или химического оружия — с помощью внешних экспертов было обнаружено, что они все еще могут оказать некоторую незначительную помощь в области биологической науки, но не было никаких доказательств того, что потенциально могут иметь доказательства тогонавык«Даже после прекрасной процедуры подъема.

Похожие записи