Технологический прорыв: DeepSeek-Math-V2 превосходит Google и OpenAI в области чистой математики

Специализированная модель задач и теорем показывает результаты, более надежные, чем у многих людей, и открывает новую гонку в области математического искусственного интеллекта.т. е.

Китайская компания DeepSeek представила новую специализированную модель решения математических задач — DeepSeek-Math-V2. Это большая языковая модель, специализированная для доказательства теорем и задач для олимпиад, и главное ее отличие в том, что она не просто дает ответ, а проверяет на корректность собственные рассуждения.

По сути, DeepSeek-Math-V2 отвечает на давний вопрос в области искусственного интеллекта: как убедиться, что модель пришла к правильному решению честным путем, а не угадывая результат или находя короткий, но неправильный обходной путь. Большинство современных моделей обучаются таким образом, что они чаще дают правильный окончательный ответ, что вознаграждается через систему вознаграждения в стиле обучения с подкреплением. Но в математике этого недостаточно: во многих задачах важен не сам ответ, а строгое и прозрачное доказательство. Авторы прямо пишут, что точный конечный результат не гарантирует правильности рассуждений, а для теорем не существует готового «правильного числа» для проверки.

DeepSeekMath-V2 основан на экспериментальной базе DeepSeek-V3.2-Exp-Base. Команда обучила отдельную программу проверки моделей, которая оценивает математические доказательства, шаг за шагом выявляя логические пробелы и ошибки, а затем использовала эту программу проверки моделей в качестве «судьи» для базовой модели генератора доказательств. Генератор вознаграждается не только за правильный окончательный ответ, но и за то, насколько хорошо его рассуждения прошли строгую проверку.. Если проверка не удалась, модель вознаграждается за попытку самостоятельно найти слабые места в своем решении и переписать доказательство так, чтобы оно уже прошло проверку.

Чтобы система не «зависла» в тот момент, когда генератор становится умнее верификатора, разработчики отдельно масштабируют вычислительные ресурсы только для верификатора. Он учится на все более сложных и труднопроверяемых примерах, которые генерирует сама модель по мере роста ее возможностей. Такой замкнутый цикл «генерация – проверка – доработка проверяющего» позволяет сохранить разрыв в навыках между двумя частями системы и не потерять способность к самокоррекции.. В статье на GitHub команда заявляет, что DeepSeekMath-V2 достигла «золотого» уровня Международной математической олимпиады 2025 года и Китайской математической олимпиады 2024 года, а на конкурсе Патнэма 2024 года модель набрала 118 из максимальных 120 баллов при использовании масштабируемых вычислений на этапе решения.

В IMO-ProofBench, специализированном тесте, разработанном командой Google DeepMind для собственной модели Gemini DeepThink, DeepSeekMath-V2, согласно независимому техническому анализу, китайская модель превосходит DeepThink в базовых тестах.

Неофициальные сводки результатов, опубликованные исследователями и энтузиастами, дают более конкретные цифры: DeepSeekMath-V2 достигает около 99% в базовой и 61,9% в расширенной части IMO-ProofBench. В том же резюме утверждается, что в этом наборе задач он превосходит модели GPT-5 и Gemini, хотя это не официальный рейтинг, а сравнение на основе частных тестов.

Еще одно событие сообщества: DeepSeek-Math-V2 позиционируется как первый открытый математический искусственный интеллекткоторый достигает «золотого» уровня в задачах уровня IMO. Об этом уже пишут на профильных форумах, где публикуются ссылки на статью и сами весы модели.

Модель доступна на GitHub и Hugging Face, а репозиторий находится под Apache 2.0.с отдельной лицензией на сами модели, регламентирующей условия использования, в том числе для коммерческого использования. О запуске DeepSeekMath-V2 и его открытом исходном коде сообщается в профильных блогах и сообщениях в социальных сетях, в которых подчеркивается, чтошаблоны можно свободно загружать и использовать на предприятии в соответствии с условиями типовой лицензии.

Фондовые и финансовые СМИ, освещающие тему ИИ, подчеркивают, что DeepSeek продолжает целенаправленно инвестировать в математические модели и формальные доказательства. По их формулировкам DeepSeek-Math-V2 использует самоусиливающийся цикл обучения, в котором модель автоматически проверяет свои доказательства, улучшая качество за счет сложных примеров и более мощного этапа проверки, что должно повысить уверенность в результатах в научном и инженерном контексте.

Важно понимать, что DeepSeek-Math-V2 не появляется из воздуха. Ранее в этом году компания уже представила DeepSeek-Prover-V2 — гигантскую модель с 671 миллиардом параметров для формального доказательства теорем в системе Lean 4. Там упор был сделан именно на формальный язык и строгие, машинно проверяемые доказательства. Новый DeepSeek-Math-V2 работает с более привычными олимпиадами и словесными задачами, но за счет самоконтроля пытается приблизиться к миру формальных доказательств с точки зрения надежности.

Для более широкого сообщества ИИ эта работа интересна не только цифрами в таблицах, но и самим подходом. Если мы сможем научиться масштабировать не только генерацию, но и проверку рассуждений, такие модели можно будет более эффективно применять в науке, технике, формальной верификации программного обеспечения и даже в образовании, где важнее объяснить решение, чем число в самом ответе. Авторы прямо пишут, что их результаты показывают: направление самопроверяющих рассуждений кажется реалистичным и многообещающим шагом на пути к более надежному математическому искусственному интеллекту.

Пока DeepSeek-Math-V2 остается узкоспециализированным, но весьма показательным примером того, как смещается фокус в ИИ: от «угадывания правильного ответа» к управлению потоком мыслей модели.. И то, как отреагировали на новинку разработчики, исследователи и любители математических олимпиад, показывает, что конкуренция идет уже не только за общий интеллект, но и за качество и проверяемость рассуждений.

` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();

Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

Похожие записи