Amazon представила новую модель голоса Nova Sonic: она более точная, чем GPT-4O

Amazon официально представил миру свою новую модель генеративного искусственного интеллекта, называемого Нова Соник и кто может обработать голос пользователя, а также генерировать естественную речь на основе текстовых инструкций. Представители компании отмечают, что с точки зрения производительности их новая модель способна конкурировать с последними моделями Openai и Google Voice в сравнительных тестах, которые ценят скорость, точность распознавания речи человека и качество сгенерированного диалога. Учитывая, что эти компании являются лидерами рынка, это действительно впечатляющий прогресс.

Более того, в официальном пресс -релизе Amazon определяет Nova Sonic как наиболее экономически эффективную модель искусственной обработки голосаЗаявив, что новый продукт примерно на 80% дешевле, чем модель OpenAI GPT-4O. В течение периода бум искусственного интеллекта, когда необходимо потратить сумасшедшие ресурсы на разработку новых технологий, расширения инфраструктуры и энергии, более экономичная модель является ключевым приоритетом для крупных компаний и их пользователей. Amazon также сообщил, что Nova Sonic построена на технической архитектуре, которая лежит в основе голосового помощника Алексы.

Разработчики отмечают, что новая голосовая модель идеально справляется с маршрутизацией запросов пользователей на различные API, что делает Nova Sonic гораздо более практичным решением. Например, голосовая модель понимает, когда найти реальную информацию из Интернета, анализировать его собственные источники информации или выполнять необходимые действия во внешнем приложении с помощью подходящего инструмента. Кроме того, модель в двустороннем диалоге знает, как подождать, чтобы поговорить с человеком в нужное время, принимая во внимание перерывы в речи.

Но самое главное, что Nova Sonic делает гораздо меньше распознавания речи по сравнению с другими голосами и моделями. Например, он может точно понять фразы пользователя, даже если он бормочет, делает слова словами или в шумной среде.

В многоязычном тесте на распознавание речи Librispeech Voicemail демонстрирует среднюю частоту ошибок 4,2% (только 4 из 100 слов распознаются по ошибке). И в дополненном многочастоном тесте взаимодействия (расширенное взаимодействие между несколькими странами) решение компании составляет на 46,7% точнее, чем GPT-4-транскриба OpenAI. II Nova Sonic опережает своего конкурента и с точки зрения скорости — средняя задержка Модель составляет 1,09 секунды, а GPT-4O показывает 1,18 секунды.

Действительно хорошее достижение Amazon, которое может изменить много вещей в этой области.

Похожие записи