Этот ИИ сделает все за вас: Google запускает Gemini 2.5 Computer Use, который работает с веб-интерфейсами
Google DeepMind представила новую специализированную ИИ-модель — Gemini 2.5 Computer Use, предназначенную для создания ИИ-агентов, способных взаимодействовать с графическими интерфейсами так же, как это делает человек.
Что умеет Gemini 2.5 Computer Use
- Навигация по интерфейсам: ИИ может кликать, вводить текст, прокручивать страницы, заполнять формы, работать с выпадающими списками и даже выполнять действия за логином.
- Интерфейсный цикл: взаимодействие происходит по принципу “запрос → действие → скриншот → анализ → следующее действие”, пока задача не будет завершена.
- Поддержка веб и мобильных интерфейсов: модель оптимизирована для браузеров, но показывает хорошие результаты и на мобильных интерфейсах. Поддержка десктопных ОС пока ограничена.
Как это работает
Модель получает запрос пользователя, делает скриншот текущего интерфейса и анализирует историю предыдущих действий. На основе этих данных она выполняет действие, например, “нажать кнопку” или “ввести текст”. Некоторые действия требуют подтверждения пользователя, особенно если речь идет о покупках или чувствительных операциях.
Принцип работы Gemini 2.5 Computer Use
Gemini 2.5 Computer Use демонстрирует:
- высокую точность на бенчмарках Browserbase и Online-Mind2Web,
- низкую задержку по сравнению с аналогами,
- до 50% более быструю работу (по итогам предварительных тестов).
Чтобы обеспечить безопасность личных данных пользователей, Google встроила в модель защиту от вредоносных действий,unexpected поведения и атак через веб-интерфейсы (например, prompt injection).
Для разработчиков доступен набор инструментов, включая оценку каждого действия перед выполнением, и системные инструкции, запрещающие или требующие подтверждения для рискованных операций.
Модель уже применяется в UI-тестировании (в том числе в Project Mariner и Firebase Testing Agent), автоматизации рабочих процессов и создании персональных ассистентов.
Модель уже доступна в публичной превью-версии через API Gemini в Google AI Studio и Vertex AI.
Источник: Google Blog
Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.