Стартап Inception получает 50 миллионов долларов на модели искусственного интеллекта, что в 10 раз быстрее, чем у OpenAI

Стартап Inception из Пало-Альто, основанный профессором Стэнфорда Стефано Хермоном, получил 50 миллионов долларов на разработку языковых моделей Mercury Diffusion — альтернативы классическим авторегрессионным программам LLM. Компания обещает кратно увеличить скорость генерации текста — до 5-10 раз по сравнению с «фронтендальными» моделями — без потери качества, делая возможными такие сценарии реального времени, как голосовые помощники, интерактивные интерфейсы и «живая» генерация кода.

Концепция Inception опирается на привнесение в текст того, что уже доказало свою эффективность в изображениях и видео: процесс диффузии, при котором ответ не появляется последовательно, а формируется «целиком» посредством серии параллельных уточнений. В отличие от авторегрессии, которая по своей сути является последовательной и затрудняется задержкой декодирования, диффузия открывает параллелизм современных графических процессоров и устраняет узкое место вывода.

«Когда ИИ развертывается в больших масштабах, неэффективный вывод становится основным барьером и фактором затрат»,

говорит Хермон, называя диффузию «путем к практической крупномасштабной производительности».

Ключевым новым продуктом является Меркурий: первый коммерчески доступный диффузия LLMкоторый, по утверждению компании, по точности сравним с флагманами OpenAI, Anthropic и Google, но в 5-10 раз быстрее. На Nvidia H100 Mercury продемонстрировала более 1000 токенов в секунду — эталон, который до недавнего времени ассоциировался с экзотическими ускорителями Groq или Cerebras.

В технической публикации arXiv сообщается о производительности по данным сторонних измерений: 1109 токенов/сек для Mercury Coder Mini и 737 токенов/сек для Mercury Coder Small; и модели поддерживают качество тестов программирования.

Mercury уже вышла за пределы лаборатории: модели доступны через собственный API, а также интегрированы в экосистемы Amazon Bedrock Marketplace и SageMaker JumpStart. Это означает, что корпоративные команды могут подключать dLLM из знакомой инфраструктуры AWS, сравнивая задержку и стоимость владения «в реальной жизни» с существующими авторегрессионными аналогами. Кроме того, Inception предлагает доступ через OpenRouter и Poe, позиционируя Mercury как замену моделям AR в текущих конвейерах.

Скорость — это только первый слой. Согласно расчетам Inception, более низкие вычислительные требования позволяют либо поддерживать ту же задержку на более крупных моделях, либо обслуживать больше пользователей в той же инфраструктуре. Диффузная архитектура, как утверждает компания, также открывает функциональные возможности: встроенное исправление ошибок (уменьшение галлюцинаций), унифицированную мультимодальность (язык+изображения+код) и точное структурирование вывода — от вызовов функций до формализованной генерации данных..

Для рынка это означает сдвиг в экономике вывода: сложные задачи декодирования (помощники кода, «агентные» конвейеры с длинными цепочками рассуждений, диалоговые интерфейсы) становятся заметно дешевле и быстрее без ущерба для качества.

На фоне гонки «больших» и все более дорогих LLM приложение Inception выглядит как попытка сместить центр тяжести с масштабирования параметров на оптимизацию пути генерации. В интервью TechCrunch Хермон подчеркивает, что диффузия позволяет обойти фундаментальную последовательность авторегрессии:

«Мы достигли пропускной способности более 1000 токенов в секунду, что недостижимо для существующих технологий AR, поскольку наш стек по своей сути параллелен».

В сообщении также отмечается интеграция Mercury с инструментами разработчика и ее внимание к сокращению задержек и затрат — двух критически важных показателей производительности.

Наконец, есть Начало мощный научный опыт: в команду входят профессора из Стэнфорда, Калифорнийского университета в Лос-Анджелесе и Корнелла; среди технических «строительных блоков», с которыми имеют дело основатели, — диффузия, мгновенное внимание, преобразователи решений и DPO. Это важный сигнал для консервативных интеграторов: они делают ставку не на «фокус с ускорением», а на самостоятельную ветвь развития генеративного ИИ, где тезис «быстрее и дешевле» не противоречит требованиям качества и управляемости. Если заявленная производительность Mercury будет подтверждена крупномасштабными внедрениями, рынок может получить редкий компромисс: высокое качество с низкой задержкой и совокупную стоимость владения, совместимую с реальными требованиями к производительности бизнеса.

Раунд финансирования Inception возглавил Menlo Ventures; в число участников входят Mayfield, Innovation Endeavors, NVentures (подразделение венчурного капитала Nvidia), M12 (фонд Microsoft), Snowflake Ventures и Databricks Investment; К сделке также присоединились бизнес-ангелы Андрей Юн и Андрей Карпатий.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх