Разработана система искусственного интеллекта для генерации голосовых дипфейков в режиме реального времени

NCC Group, компания, специализирующаяся на технологиях кибербезопасности, создала метод воссоздания голоса любого человека в реальном времени на основе искусственного интеллекта. Система построена на основе общедоступных программных решений и общедоступного аппаратного обеспечения.

Инструмент голосового дипфейка в реальном времени после обучения активируется всего одним нажатием кнопки — он управляется через веб-интерфейс, и потенциальный злоумышленник может представиться кому угодно.

Качество входного сигнала также может быть низким — голосовой вывод по-прежнему звучит убедительно, а задержка ничтожно мала. Это означает, что данное решение можно использовать даже со встроенными в ноутбуки и смартфоны микрофонами. Работа в режиме реального времени является важным преимуществом.

Существующие технологии подмены голоса выводят звуковой файл. Это значит, что злоумышленник должен заранее записывать линии, но потенциальная жертва может легко раскрыть схему, если разговор отклонится от ожидаемого сценария, а если мошенник попытается на лету сгенерировать дипфейк, то он будет выдан задержкой разговора. Инженеры NCC Group протестировали свою технологию на собственных заказчиках (с их разрешения, конечно) и они не смогли распознать обман.

Программная часть решения использует инструменты с открытым исходным кодом, а для эффективной работы аппаратной части желательно использовать мощные видеокарты, но даже ноутбук с одной из самых непроизводительных в текущей линейке Nvidia RTX A1000 давал задержку всего в полсекунды.

К счастью, видеодипфейки пока не работают в режиме реального времени. В настоящее время основные социальные сети, включая TikTok, YouTube и Instagram, наводнены очередной волной видео-дипкейков, которые создаются с помощью двух инструментов: Google Gemini Flash 2.5 Image Generator (он же Нано Банан) и Alibaba WAN 2.2 Animate Open Video Generator — они позволяют добавлять в видео случайного человека. Слабой стороной видеодипфейков по-прежнему является отсутствие связности изображения и звука — мимика не всегда соответствует интонациям, и если человек якобы взволнован, но лицо его остается спокойным — скорее всего, это фейк. Однако новые решения заставляют задуматься о необходимости совершенствования средств защиты: методы аутентификации больше не должны опираться на голосовые и видеопереговоры, предупреждают эксперты.

Похожие записи