OpenAI сообщила, что чат-бот ChatGPT, основанный на генеративном интеллекте, имеет возможность обрабатывать видеопоток и рассказывать пользователям о том, что он «наблюдает» с помощью камеры смартфона или компьютера, или что он видит на экране устройства. Новая функция доступна в расширенном голосовом режиме.
Компания объявила, что ChatGPT получит функцию компьютерного зрения, которая позволит ему «видеть» с помощью камеры смартфона пользователя или с помощью скринкастинга. Владельцы платных подписок ChatGPT Plus, Team и Pro теперь имеют доступ к расширенному голосовому режиму ChatGPT. Компания заявляет, что подписчики ChatGPT Enterprise и Edu не получат эту функцию до января, и что нет графика ее запуска в ЕС, Швейцарии, Исландии, Норвегии и Лихтенштейне.
В недавней демонстрации на канале CNN «60 минут» президент OpenAI Грег Брокман протестировал расширенный голосовой режим с визуальным распознаванием с участием телеведущего Андерсона Купера. Темой были анатомические навыки чат-бота. Когда Купер рисовал на доске части тела, ChatGPT «понимал», что он рисует. При этом ChatGPT допустил ошибку в задании по геометрии в этом режиме, что указывает на его склонность к галлюцинациям.
С момента анонса в мае компания несколько раз откладывала выпуск улучшенного голосового режима с визуальным распознаванием. В апреле OpenAI пообещала, что режим будет доступен пользователям».в течение нескольких недель', но несколько месяцев спустя признал, что это займет больше времени, чем планировалось. А когда в сентябре для некоторых пользователей был запущен расширенный голосовой режим, в нем отсутствовала функциональность компьютерного зрения.
Google и Meta также работают над аналогичными возможностями своих чат-ботов. На этой неделе Google предоставила возможность искусственного интеллекта для видеоаналитики в реальном времени Project Astra группе «доверенные тестировщики' на платформе Android.