Американский стартап Inception представил Mercury 2 — первую языковую модель, использующую диффузионную архитектуру вместо традиционной авторегрессии, что позволяет генерировать текст в пять раз быстрее, чем существующие аналоги. Вместо последовательного прогнозирования токенов модель создает черновик ответа целиком и итеративно улучшает его — генераторы видео и фото работают аналогичным образом. В результате Mercury 2 достигает скорости более 1000 токенов в секунду, а качество сравнимо с качеством Claude 4.5 Haiku и GPT-5.2 Mini.
Сегодня практически все языковые модели, включая решения OpenAI, Anthropic и Google DeepMind, работают на основе авторегрессионной архитектуры – генерируют текст последовательно, токен за токеном. Такой подход ограничивает скорость: чем глубже рассуждения, тем выше задержка и стоимость. В ответ индустрия вложила миллиарды долларов в ускорительные чипы, оптимизацию инфраструктуры и модели сжатия, но сам принцип последовательной генерации остался неизменным.
«Меркурий-2» предлагает альтернативу — архитектуру, основанную на диффузии. Вместо постепенного прогнозирования следующего токена модель полностью генерирует черновой ответ, а затем итеративно уточняет его, обрабатывая несколько токенов параллельно. Этот подход, ранее использовавшийся в основном при создании изображений и видео, позволяет радикально повысить производительность, не полагаясь исключительно на аппаратную оптимизацию.
По данным компании, Mercury 2 достигает скорости более 1000 токенов в секунду на графических процессорах NVIDIA Blackwell, обеспечивая при этом производительность, сравнимую с Claude 4.5 Haiku и GPT-5.2 Mini. Модель поддерживает контекстное окно, содержащее до 128 000 токенов. Он набрал 91,1 балла по AIME 2025 в стандартных тестах и сопоставимые оценки за задачи программирования, научных вычислений и логического анализа. Запрошенная стоимость составляет 0,25 доллара США за миллион входных токенов и 0,75 доллара США за миллион выходных токенов.
Главным преимуществом подхода является не только скорость, но и достоверность выводов. Благодаря итеративному уточнению модель способна исправлять ошибки во время генерации, генерировать структурированные ответы в формате JSON и более предсказуемо работать в агентных системах. Это особенно важно для многоэтапных рабочих процессов, где задержка на каждом этапе накапливается и влияет на качество работы конечного пользователя.
В компании подчеркивают, что «Меркурий 2» теперь ориентирован на промышленные приложения — от интерактивного программирования и голосовых интерфейсов до RAG-конвейеров и автоматизации предприятий. Модель совместима с API OpenAI, что позволяет интегрировать ее в существующие стеки без необходимости серьезных изменений инфраструктуры. Среди первых партнеров и инвесторов — Menlo Ventures, Mayfield, M12 и ряд технологических фондов при инфраструктурной поддержке NVIDIA.
Стартап основали исследователи из Стэнфордского, Калифорнийского и Корнеллского университетов, а его генеральный директор Стефано Хермон известен своими работами над моделями диффузии. Меркурий 2 теперь доступен через API компании, и Inception активно набирает партнеров для крупномасштабного развертывания. Если заявленная производительность подтвердится на практике, диффузионная архитектура может оказаться новым этапом развития языковых моделей — не за счет увеличения вычислительных мощностей, а за счет изменения самого принципа генерации.
Все важное из мира технологий прямо на ваш почтовый ящик.
Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

