Новая модель искусственного интеллекта ByteDance оживляет статические изображения звуком

Материнская компания TikTok, ByteDance, разработала систему искусственного интеллекта под названием INFP, которая может заставить статические портретные фотографии говорить и реагировать на аудиовход.

Что отличает INFP (интерактивный, естественный, Flash и индивидуальный) от остальных, так это его способность создавать реалистичные видео разговоров между двумя людьми без необходимости вручную назначать роли говорящего и слушателя. Система автоматически определяет эти роли по ходу разговора.

Система работает в два основных этапа. С первый этапкоторую ByteDance называет «Имитацией головы на основе движения», ИИ учится учитывать все мелкие детали того, как люди общаются — например, выражение лица и движения головы во время разговора. Он берет эти движения из видео и превращает их в данные, которые можно использовать позже. Эти данные о движении затем могут анимировать неподвижную фотографию, чтобы она соответствовала движениям исходного человека.

В второй этап«генерация движений с аудиоуправлением», система определяет, как сопоставить звуки с естественными движениями. Команда разработала так называемый «направляющий движения» и создает модели для разговора и слушания, анализируя звук с обеих сторон разговора. Специальный компонент искусственного интеллекта, называемый диффузионным преобразователем, постепенно превращает эти паттерны в плавные, реалистичные движения, соответствующие звуку.

Чтобы правильно обучить свою систему, команде пришлось создать что-то новое: коллекцию реальных разговоров, которую они назвали DyConv. Собрал более 200 часов человеческих разговоров из видео в Интернете.

Хотя существуют и другие базы данных разговоров, такие как ViCo и RealTalk, команда говорит, что DyConv предлагает нечто особенное — она охватывает более широкий спектр человеческих эмоций и выражений, а качество видео заметно лучше.

ByteDance заявляет, что ее система превосходит существующие инструменты по нескольким ключевым параметрам. INFP особенно хороши в согласовании движений губ с речью, сохранении уникальных черт лица человека и создании широкого спектра естественных движений. Команда также обнаружила, что система хорошо работает для создания видеороликов, на которых человек просто слушает разговор.

INFP в настоящее время работает только со звуком, но команда видит множество способов расширить его возможности. Они исследуют, как заставить систему работать с изображениями и текстом, что откроет множество новых возможностей. Их следующая цель — создать реалистичную анимацию всего тела человека, а не только головы и мимики.

Исследователи понимают, что технологиями такого типа можно злоупотреблять для создания дипфейковых видеороликов и распространения ложной информации. Поэтому они планируют оставить базовую технологию доступной только для исследовательских институтов, подобно тому, как Microsoft сделала прошлым летом свою передовую систему клонирования голоса.

Эта деятельность является лишь частью более широкой стратегии ByteDance в области искусственного интеллекта, о которой компания объявила ранее в этом году. Имея в своем портфолио такие популярные приложения, как TikTok и CapCut, у компании есть огромная платформа для использования этих инноваций в области искусственного интеллекта.

Похожие записи