Meta выпустила AI-модель SeamlessM4T, способную переводить со 101 языка. Проект является шагом на пути к созданию универсального переводчика, работающего в режиме реального времени, который может обрабатывать устную речь во время нашего общения.
Традиционные модели перевода ИИ работают многоэтапно: сначала разговорный язык преобразуется в текст, затем он переводится на другой язык, а текст на новом языке преобразуется обратно в устную речь. Этот метод не всегда достаточно эффективен, поскольку на каждом этапе существует вероятность ошибок, которые могут привести к некорректному результату перевода. Новый Meta SeamlessM4T выполняет прямой перевод и, как говорят, на 23% точнее, чем лучшие современные модели. В арсенале Google есть модель AudioPaLM, которая поддерживает 113 языков, но переводит только на английский; SeamlessM4T переводит со 101 языка на 36.
Залогом успеха проекта стал параллельный процесс сбора данных: ИИ фиксирует в отсканированных данных веб-источников случаи, соответствующие аудио или видео с субтитрами на другом языке. В результате модель научилась ассоциировать эти звуки на одном языке с соответствующими фрагментами текста на другом. Однако авторы проекта признают, что участие человека в переводе остается важным: человек способен учесть культурный контекст и обеспечить передачу смысла высказывания с одного языка на другой. В медицине или юриспруденции машинный перевод должен тщательно проверяться человеком, иначе могут возникнуть недопонимания.
Следует также учитывать, что модели ИИ могут иметь разное количество обучающих данных для разных языков: может быть много примеров перевода с греческого на английский, но нет данных перевода с суахили на греческий. Чтобы решить эту проблему, разработчики SeamlessM4T предварительно обучили модель на миллионах часов аудиозаписей разговоров на разных языках. Такое обучение помогло ИИ распознавать общие закономерности в языках, упрощая обработку менее распространенных языков, поскольку модель уже обладает базовыми знаниями о том, как должна звучать разговорная речь на них.
Система доступна с открытым исходным кодом, что, как надеются разработчики, побудит других использовать ее текущие возможности. Некоторые эксперты до сих пор сомневаются, насколько полезным на практике может оказаться SeamlessM4T, и отмечают, что закрытая модель Google работает намного быстрее. Мета утверждает, что специалисты компании уже создали более новую версию Seamless, не уступающую по скорости человеческим переводчикам.