Курсор із мізками: як Google DeepMind перетворює мишу на «розумну» указку

Автор: Петро Тітаренко | сьогодні, 14:48

Останні пів століття ми взаємодіємо з комп’ютером за принципами, закладеними ще в епоху Xerox PARC. Курсор для операційної системи — це лише набір координат X та Y, стрілка, що клацає по пікселях. Дослідники з підрозділу Google DeepMind вирішили, що настав час наділити цей інструмент інтелектом. Концепція AI-enabled pointer обіцяє перетворити звичайне наведення миші на повноцінний діалог із машиною, де замість довгих текстових пояснень достатньо просто ткнути пальцем (або стрілкою) і сказати: «Зроби щось із цим».

Основна проблема сучасного ШІ — це так звані «інтерфейсні бар’єри». Сьогодні, щоб змусити нейромережу попрацювати, вам потрібно скопіювати текст, зробити скриншот або завантажити файл у окреме вікно чат-бота. Це нагадує роботу з посередником, якому треба розжовувати кожне завдання. Google хоче прибрати цю зайву ланку, зробивши штучний інтелект частиною самого курсора. Система має розуміти не лише положення вказівника, а й семантичний зміст об’єкта під ним.

Кінець епохи «координатної сітки»

Новий підхід базується на тому, як люди спілкуються між собою в реальному світі. Ми постійно комбінуємо мову та жести: «посунь ту коробку», «спробуй оце». Співрозмовник розуміє нас завдяки візуальному контексту. Мультимодальні моделі на кшталт Gemini вже навчилися бачити та чути, тому перенесення цієї механіки в інтерфейс ПК виглядає логічним кроком. Наприклад, ви наводите курсор на складну таблицю у PDF-файлі та просто кажете: «Побудуй за цим графік». Система сама розпізнає межі таблиці, дані всередині та виконає команду.

Google виділяє чотири стовпи, на яких триматиметься майбутній інтерфейс:

  • Відмова від перемикання між програмами та ШІ-сервісами;
  • Автоматичне зчитування візуального контексту навколо вказівника;
  • Використання природної мови замість складного промпт-інжинірингу;
  • Сприйняття елементів екрана як «осмислених сутностей» (адрес, дат, об’єктів), а не просто кольорових крапок.

Від браузера до заліза

Перші паростки цієї «магії» вже проростають у браузері Chrome. Користувачі можуть викликати Gemini поверх вебсторінки, щоб порівняти товари або візуалізувати меблі в інтер’єрі прямо на фото. Проте амбіції компанії йдуть далі. Google анонсувала функцію Magic Pointer для своїх майбутніх ноутбуків Googlebook. Ці пристрої проєктуються як нативні платформи для ШІ-агентів, де курсор працюватиме як лазерна указка, що підсвічує наміри користувача.

Експерименти також тривають у лабораторіях Google Labs Disco та AI Studio. Фактично, ми спостерігаємо спробу переосмислити персональний комп’ютер. Якщо раніше ми вчили мову машини (команди, синтаксис, шляхи до файлів), то тепер машина нарешті вчить нашу мову жестів та натяків. Це не просто «стильний» апдейт, а спроба зробити взаємодію з даними такою ж природною, як пересування предметів на столі.

Щодо глибинних процесів у нейромережах, то нещодавно гарвардські вчені вивели формулу інтелекту, яка пояснює фізику «цифрової алхімії» та допомагає зрозуміти, як саме ШІ-агенти обробляють інформацію.