OpenAI выпустил два II-моделя для рассуждений, которые разработчик утверждает, что имеет аналогичные возможности с возможностями «O» моделей. Оба продукта доступны на платформе объятия.
Компания предлагает две разработки: более мощный GPT-ASS-120B, который требует графической карты NVIDIA для работы, в то время как более легкий GPT-BPT-20B требует ноутбука с 16 ГБ оперативной памяти. В последний раз Openai запустил проект с открытым исходным кодом, который был более пяти лет назад, когда это был GPT-2. Новые модели, по словам компании, могут отправить слишком сложные запросы в облачные системы, если они не могут обработать некоторые запросы самостоятельно.
Как признанный мировой лидер в индустрии искусственного интеллекта, Openai стремится сделать свои модели с открытым исходным кодом более мощными, чем существующие, и утверждают, что добились успеха. В кодировании кодирования тестов модели GPT-BPT-12B и GPT-CSS-20B достигли 2622 и 2516 очков соответственно, обыграв Deepeek R1, но за O3 и O4-Mini. В последнем экзамене человечества (HLE) GPT-CSS-12B и GPT-ASS-20B достигли 19% и 17,3% соответственно, чем O3, но выше, чем флагманские модели Deepeek и Alibaba QWEN.
Отмечено, что новые открытые модели галлюцинации Openai, т. Е. Они дают ответы, которые не верны уверенно, чаще, чем закрытые O3 и O4-Mini. Разработчик назвал этот результат ‘Ожидается, что меньшие модели имеют меньше знаний о мире, чем более крупные, продвинутые модели, и склонны к более выраженным галлюцинациям«В тесте Personqa модели GPT-OS-12B и GPT-ASS-20B галлюцинировали свои ответы соответственно в 49% и 53% случаев; для сравнения, для O3 и O4-Mini эти цифры составляют 16% и 36% соответственно.
OpenAI обучил свои открытые модели, используя те же процессы, что и закрытые модели, но оба использовали метод MOE (смеси экспертов), чтобы потреблять меньше параметров для ответа на вопросы. Например, GPT-ASS-120B имеет 177 миллиардов параметров, но активирует только 5,1 миллиарда на токен, что помогает повысить эффективность. Он также использует высококачественные силовые тренировки — процесс, чтобы отличить правильный от неправильного в моделируемых средах; Он используется для обучения моделей серии O. Открытые модели также используют аналогичный процесс ответов, который требует дополнительного времени и ресурсов.
OpenAI утверждает, что открытые модели подходят для использования в агентах искусственного интеллекта и способны получить доступ к веб-поиску и инструментам для выполнения кода Python. Подчеркивается, что они не являются мультимодальными, что означает, что они предназначены для работы только с текстом и не могут обрабатывать или генерировать изображения или звук. Модели доступны по лицензии Apache 2.0, которая считается одним из самых демократических. В то же время компания отказывается раскрывать, какие данные использовались для изучения.
OpenAI также провел отдельное исследование, чтобы убедиться, что гипотетические злоумышленники могут использовать новые модели в кибератаке или для разработки биологического или химического оружия — с помощью внешних экспертов было обнаружено, что они все еще могут оказать некоторую незначительную помощь в области биологической науки, но не было никаких доказательств того, что потенциально могут иметь доказательства тогонавык«Даже после прекрасной процедуры подъема.