Кино без границ: Подразделение Alibaba представило ИИ-модель для «идеального» озвучивания фильмов

Tongyi Lab, компания Alibaba, выпустила Fun-CineForge – первая в мире мультимодальная модель озвучивания фильмов с открытым исходным кодом для исследователей и разработчиков. Новая технология направлена на решение проблем, с которыми сталкиваются традиционные системы искусственного интеллекта для кино и анимации, включая точную синхронизацию речи с движениями губ и передачу сложных эмоциональных нюансов.

Fun-CineForge преодолевает четыре ключевых препятствия в кинопроизводстве: синхронизация губ, эмоциональное выражение, согласованность голоса персонажей и точное время, даже когда говорящий скрыт или отсутствует в кадре. Это дает возможность озвучивать сцены с участием нескольких персонажей, не теряя при этом целостности диалога.

Модель использует высококачественный набор данных CineDub, собранный из более чем 350 китайских и английских фильмов и сериалов. Его автоматизированный процесс основан на методе хода мысли, который снижает частоту ошибок транскрипции китайских и английских текстов до 1-2% и уменьшает ошибки разделения говорящих до 1,2%.

Fun-CineForge использует четырехмодальную архитектуру слияния: визуальную (форма и выражение губ), текстовую (эмоции диалога), аудио (голосовые тесты) и временную, которая точно контролирует, когда появляется речь и какой персонаж говорит. В результате звук синхронизируется с изображением даже в сложных сценах, где не видно лиц, что было невозможно в традиционных моделях.

Результаты экспериментов показывают, что модель превосходит базовые системы, такие как DeepDubber-V1, с точки зрения частоты ошибок распознавания слов, точности синхронизации губ и сходства голоса. Fun-CineForge — первая модель, поддерживающая диалоговые сцены двух и более человек за счет поддержания постоянного тембра голоса и точной синхронизации времени.

Он также стабильно работает с видеороликами длиной до 30 секунд, демонстрируя стабильное воспроизведение и эмоциональное выражение. Это открывает новые возможности для озвучивания сложных сцен, карикатур и анимационных проектов, где до сих пор было сложно добиться точного совпадения голоса и движения губ.

Открытый исходный код Fun-CineForge позволяет разработчикам использовать модель в собственных проектах, совершенствовать алгоритмы и создавать более естественный, эмоционально насыщенный дубляж для фильмов и анимации, устраняя разрыв между синтезированной речью и визуальной частью сцены.

Как и в случае с любой технологией клонирования голоса и лица (Deepfake), возникают проблемы с авторскими правами. В Alibaba подчеркивают, что модель предназначена для профессионального использования с согласия правообладателей и включает в себя невидимые цифровые водяные знаки для защиты от подделок.

Все важное из мира технологий прямо на ваш почтовый ящик.

Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи