Nous Research представляет Hermes 4-AI на уровне GPT-4O и без встроенной цензуры

Стартап Nous Research представила Hermes 4 — семейство больших моделей с открытым исходным кодом. Их возможности сопоставимы с ведущими коммерческими искусственными интеллектами OpenAI и антропной, демонстрируя высокие результаты в математике и тестах на программирование. Основной характеристикой Hermes 4 является его готовность ответить на широкий спектр вопросов практически без ограничений. В отличие от GPT-4O, который часто избегает противоречивых тем, эта модель не содержит встроенных инструментов цензуры.

Hermes 4 включает в себя три модели из 14, 70 и 405 миллиардов параметров. Они используют механизм «гибридных рассуждений»: модель может дать быстрые ответы или развернуть подробный анализ пост -шага внутри тегов Это позволяет пользователю видеть курс мышления. Это обеспечивает удобный переключение между скоростью и глубиной обработки информации.

В математических тестах Hermes 4 достиг уровня самых дорогих коммерческих проектов: Самая большая версия (405B) получила 96,3% в математике-500, 81,9% в AIME’24 и 78,1% в AIME’25. Модель также достигла 70,5% в алмазе GPQA (точные науки) и 61,3% в LiveCodebench. В Clankmark Refusalbench, который разработал Nous Research для оценки тенденции ИИ к провалившению, Hermes 4 достиг 57,1%-много времени лучше, чем Gemini 2,5 Pro (23,24%), GPT-4O (17,67%) и Claude Sonnet (17%)

Nous Research намеренно избегает встроенных инструментов цензуры, подчеркивая, что пользователь, а не компания, должен устанавливать пределы приемлемого контента.

За высокими результатами находится особый подход к обучению. Критическим компонентом является система DataForge, которая генерирует синтетические данные с использованием направленного ациклического графика (DAG). В этом количестве каждый узел определяет условия и преобразования, которые позволяют постепенно осложнять исходные данные. Например, система может взять простую статью из Википедии, превратить ее в рэп, а затем генерировать пары запроса на основе ее. Этот процесс обеспечивает быстрое и крупное создание различных учебных материалов. Результатом является около 5 миллионов примеров с 19 миллиардами токенов. Более того, задачи рассуждений были специально «дольше»-в среднем в пять раз больше, чем обычно, так что они могут взять подробные цепочки мыслей до 16 000 жетонов.

Другой предмет есть Атропос — Среда для подкрепления с сотнями специализированных «симуляторов». Модели осуществляются посредством математических расчетов, программирования, генерации кода и операции формата, причем только проверенные ответы попадают в конечные наборы данных.

Такой выбор помогает сформировать шаблоны рассуждений вместо того, чтобы запоминать готовые решения.

Разработчики решили проблему слишком длинных рассуждений: Младшая версия модели с 14 миллиардами параметров в 60% случаев «перешла в бесконечный цикл», заполняя контекст до максимальной длины, не достигая результата. Чтобы избежать таких сбоев, они добавили второй этап обучения, в которой модель была специально обучена прекратить обоснование предела 30 000 символов. Этот метод снижает гонки на 65-79%, сохраняя при этом почти одинаковый уровень точности ответов.

Техническое обучение проводилось в 192 Nvidia B200 Accelerator, используя раму Torchtitan. Чтобы справиться с огромным количеством данных, команда использует оптимизированную выборку и параллельные расчеты. В конце концов, команде удалось обработать 3,5 миллиона примеров рассуждений и 1,6 миллиона без рассуждений. Это заняло 71 616 часов графического процессора — приблизительно 15 дней при полной аппаратной нагрузке.

Nous Research позиционирует Hermes 4 как «альтернативу гигантам»подчеркивая открытость и свободу пользователя. Веса моделей теперь доступны на обнимательном лице, а API интегрируется в интерфейс чата, причем работа поддерживается Placks, Nebius и поставщиками облачных услуг Nebius и Luminal.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх