Исследовательский отдел Microsoft по искусственному интеллекту представил три новые модели искусственного интеллекта, которые могут генерировать текст, голос и изображения. В конкуренции с ведущими лабораториями технологий искусственного интеллекта компания решила укрепить свои позиции, сделав ставку на собственную мультимодальную инфраструктуру.
Модель МАИ-Транскрайб-1 переводит речь на 25 языках в текст, превосходя по производительности сервис Azure Fast в 2,5 раза. Вторая модель МАИ-Голос-1 создает одноминутную аудиозапись за одну секунду и поддерживает настройку голоса. МАИ-Изображение-2 отвечает за создание визуального контента из текстового описания.
TechCrunch сообщает, что над проектом работала MAI Superintelligence — команда, занимающаяся фундаментальными исследованиями в области передовых систем искусственного интеллекта, которую в ноябре 2025 года возглавил исполнительный директор подразделения Мустафа Сулейман.
В текущем проекте разработчики сделали упор на снижение стоимости вычислений по сравнению с коллегами из Google и OpenAI. Сборы стоимость декодирования текста начинается от 0,36 доллара в час, синтез речи оценивается в 22 доллара за 1 миллион символов, а обработка изображений стоит 5 долларов за 1 миллион входных тегов и 33 доллара за создание 1 миллиона выходных тегов. Все модели теперь реализованы на платформе Microsoft Foundry, а модели транскрипции и синтеза речи также доступны на MAI Playground.
Несмотря на активный запуск собственных проектов, в интервью VentureBeat Сулейман подтвердил свою приверженность партнерству с OpenAI, в которое Microsoft уже инвестировала более 13 миллиардов долларов. Корпорация продолжит использовать модели OpenAI в своих продуктах по многолетнему контракту, придерживаясь той же стратегии диверсификации, что и в случае с микрочипами.
Все важное из мира технологий прямо на ваш почтовый ящик.
Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

