Этот ИИ сделает все за вас: Google запускает Gemini 2.5 Computer Use, который работает с веб-интерфейсами

Автор: Антон Кратюк, 08 октября 2025, 15:00
Создатели гонятся за инновацией: сборка Gemini 2.5 - новые горизонты вычислений Постер Gemini 2.5 Computer Use. Источник: Google

Google DeepMind представила новую специализированную ИИ-модель — Gemini 2.5 Computer Use, предназначенную для создания ИИ-агентов, способных взаимодействовать с графическими интерфейсами так же, как это делает человек.

Что умеет Gemini 2.5 Computer Use

  • Навигация по интерфейсам: ИИ может кликать, вводить текст, прокручивать страницы, заполнять формы, работать с выпадающими списками и даже выполнять действия за логином.
  • Интерфейсный цикл: взаимодействие происходит по принципу “запрос → действие → скриншот → анализ → следующее действие”, пока задача не будет завершена.
  • Поддержка веб и мобильных интерфейсов: модель оптимизирована для браузеров, но показывает хорошие результаты и на мобильных интерфейсах. Поддержка десктопных ОС пока ограничена.

Как это работает

Модель получает запрос пользователя, делает скриншот текущего интерфейса и анализирует историю предыдущих действий. На основе этих данных она выполняет действие, например, “нажать кнопку” или “ввести текст”. Некоторые действия требуют подтверждения пользователя, особенно если речь идет о покупках или чувствительных операциях.

Принцип работы Gemini 2.5 Computer Use
Принцип работы Gemini 2.5 Computer Use

Gemini 2.5 Computer Use демонстрирует:

  • высокую точность на бенчмарках Browserbase и Online-Mind2Web,
  • низкую задержку по сравнению с аналогами,
  • до 50% более быструю работу (по итогам предварительных тестов).
Бенчмарки Gemini 2.5 Computer Use

Чтобы обеспечить безопасность личных данных пользователей, Google встроила в модель защиту от вредоносных действий,unexpected поведения и атак через веб-интерфейсы (например, prompt injection).

Для разработчиков доступен набор инструментов, включая оценку каждого действия перед выполнением, и системные инструкции, запрещающие или требующие подтверждения для рискованных операций.

Модель уже применяется в UI-тестировании (в том числе в Project Mariner и Firebase Testing Agent), автоматизации рабочих процессов и создании персональных ассистентов.

Модель уже доступна в публичной превью-версии через API Gemini в Google AI Studio и Vertex AI.

Источник: Google Blog

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.