Курсор с мозгами: как Google DeepMind превращает мышь в «умную» указку

Автор: Петр Титаренко, сегодня, 14:51
Концепция интеллектуального курсора Google DeepMind Семантический курсор от Google: будущее без интерфейсных барьеров. Источник: Google

Последние полвека мы взаимодействуем с компьютером по принципам, заложенным еще в эпоху Xerox PARC. Курсор для операционной системы — это всего лишь набор координат X и Y, стрелка, щелкающая по пикселям. Исследователи из подразделения Google DeepMind решили, что пришло время наделить этот инструмент интеллектом. Концепция AI-enabled pointer обещает превратить обычное наведение мыши в полноценный диалог с машиной, где вместо длинных текстовых объяснений достаточно просто указать пальцем (или стрелкой) и сказать: «Сделай что-нибудь с этим».

Основная проблема современного ИИ — это так называемые «интерфейсные барьеры». Сегодня, чтобы заставить нейросеть работать, нужно скопировать текст, сделать скриншот или загрузить файл в отдельное окно чат-бота. Это напоминает работу с посредником, которому нужно разжевать каждую задачу. Google хочет убрать это лишнее звено, сделав искусственный интеллект частью самого курсора. Система должна понимать не только положение указателя, но и семантическое содержание объекта под ним.

Конец эпохи «координатной сетки»

Новый подход основан на том, как люди общаются друг с другом в реальном мире. Мы постоянно комбинируем язык и жесты: «подвинь ту коробку», «попробуй это». Собеседник понимает нас благодаря визуальному контексту. Мультимодальные модели вроде Gemini уже научились видеть и слышать, поэтому перенос этой механики в интерфейс ПК выглядит логичным шагом. Например, вы наводите курсор на сложную таблицу в PDF-файле и просто говорите: «Построй по этому график». Система сама распознает границы таблицы, данные внутри и выполнит команду.

Google выделяет четыре столпа, на которых будет держаться будущий интерфейс:

  • Отказ от переключения между программами и ИИ-сервисами;
  • Автоматическое считывание визуального контекста вокруг указателя;
  • Использование естественного языка вместо сложного промпт-инжиниринга;
  • Восприятие элементов экрана как «осмысленных сущностей» (адресов, дат, объектов), а не просто цветных точек.

От браузера к железу

Первые ростки этой «магии» уже прорастают в браузере Chrome. Пользователи могут вызвать Gemini поверх веб-страницы, чтобы сравнить товары или визуализировать мебель в интерьере прямо на фото. Однако амбиции компании идут дальше. Google анонсировала функцию Magic Pointer для своих будущих ноутбуков Googlebook. Эти устройства проектируются как нативные платформы для ИИ-агентов, где курсор будет работать как лазерная указка, подсвечивающая намерения пользователя.

Эксперименты также продолжаются в лабораториях Google Labs Disco и AI Studio. Фактически, мы наблюдаем попытку переосмыслить персональный компьютер. Если раньше мы учили язык машины (команды, синтаксис, пути к файлам), то теперь машина наконец учит наш язык жестов и намеков. Это не просто «стильный» апдейт, а попытка сделать взаимодействие с данными таким же естественным, как перемещение предметов на столе.

Что касается глубинных процессов в нейросетях, то недавно гарвардские ученые вывели формулу интеллекта, объясняющую физику «цифровой алхимии» и помогающую понять, как именно ИИ-агенты обрабатывают информацию.

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.