Машина, которая ищет и исправляет свои ошибки.
На Международной математической олимпиаде 2025 года произошло необычное событие: среди решений, получивших серебряную медаль, оказалось не человеческое решение, а работа, созданная искусственным интеллектом. Ранее ни одна система искусственного интеллекта не продемонстрировала на олимпиаде результат, сравнимый с уровнем сильных учеников, традиционно доминирующих на подобных соревнованиях.
Эта система называется AlphaProof — разработка Google DeepMind, предназначенная для решения математических задач в виде строгих формальных доказательств. Ее подъем на уровень международных Олимпийских игр уже сам по себе был впечатляющим, но гораздо важнее способность программы находить собственные ошибки и исправлять их. Обычные модели большого языка действительно могут решать уравнения и логические задачи, но их выводы часто содержат незначительные ошибки: формулировка выглядит убедительной, но не работает при проверке.
Подход AlphaProof радикально отличается. Каждый шаг рассуждений подвергается формальной проверке в среде Lean — специализированной системе, разработанной в Microsoft Research и предназначенной для строгой проверки математических доказательств. Lean принимает только совершенно правильные цепочки рассуждений, поэтому AlphaProof не ограничивается чистой генерацией текста, а создает доказательство, подтвержденное формальной логикой.
Создание такой системы потребовало трех этапов подготовки.. Во-первых, AlphaProof обучается на массиве из примерно 300 миллиардов токенов, включая программный код, учебные материалы и научные тексты. Это дало модели базовые знания о логических структурах, формальном языке и принципах построения доказательств. Затем исследователи загрузили в систему 300 000 готовых доказательств, предварительно отформатированных в Lean. Они отразили стиль мышления профессиональных математиков и послужили отправной точкой для дальнейшего изучения.
Самый амбициозный этап оно начинается позже, когда системе предлагается «домашнее задание» из 80 миллионов формализованных задач. Здесь используется обучение с подкреплением — метод, при котором модель вознаграждается за успешные доказательства. Постепенно AlphaProof научилась разрабатывать собственные стратегии поиска решений, опираясь не на копирование человеческих примеров, а на накопленный опыт. Он проанализировал свои собственные эксперименты, отверг неудачные подходы и искал новые пути рассуждений.
Для самых сложных задач команда добавляет дополнительный инструмент — Обучение с подкреплением во время тестирования (TTRL). Эта схема создает очень упрощенные версии исходной проблемы, которые система решает одну за другой, собирая полезные логические закономерности. Затем AlphaProof переносит построенные стратегии на исходную, гораздо более сложную задачу.
Авторы исследования отмечают, что объем накопленного опыта позволил системе создавать сложные, продуманные цепочки рассуждений и доказать утверждения, которые ранее были доступны только специалистам. Потенциал технологии не ограничивается олимпиадами: AlphaProof может помочь с проверкой математических текстов, обнаружением ошибок и даже разработкой новых теоретических идей.

