ИИ Google теперь может ходить по веб-сайтам, нажимать на кнопки и заполнять формы

Google представила новую версию своего искусственного интеллекта Gemini 2.5 Pro с функцией «Использование компьютера», которая позволяет системе просматривать веб-сайты, нажимать на кнопки, листать страницы и самостоятельно заполнять формы. Эта функция, разработанная подразделением Deepmind, делает модель искусственного интеллекта универсальным цифровым агентом, способным выполнять действия браузера так же, как человек.

По сути, использование компьютера Gemini 2.5 — это шаг от чат-бота к «исполнителю». Если предыдущие версии ИИ могли только отвечать на вопросы и генерировать тексты, Теперь он может действовать в реальном интерфейсе: искать билеты, заходить на веб-сайты, совершать покупки и тестировать персонализированные формы.

«Это только начало, но способность модели взаимодействовать с сетью, такая как прокрутка, заполнение форм и навигация по меню, станет важным шагом в создании универсальных агентов искусственного интеллекта»,

Об этом заявил генеральный директор Google Сундар Пичаи.

Для реализации этой функции Google заключила партнерское соглашение со стартапом Browserbase, основанным бывшим инженером Twilio Полом Кляйном. Browserbase предлагает браузер как виртуальную среду без графического пользовательского интерфейса, в которой искусственный интеллект может взаимодействовать с веб-страницами напрямую через API. Такой подход позволяет обучать и тестировать модели в контролируемой среде без реального вмешательства пользователя.

Похожие записи