Google навчив ШІ домовлятися без «наглядача»: прощавай, ручна координація
Коли декілька агентів штучного інтелекту опиняються в одному середовищі, вони зазвичай поводяться як егоїстичні підлітки: кожен тягне ковдру на себе, а спільний результат котиться під три чорти. Проблема «кожного за себе» у децентралізованих системах роками була головним болем розробників, але команда Paradigms of Intelligence з Google, схоже, знайшла спосіб перетворити цей цифровий дарвінізм на конструктивну співпрацю без написання тисяч нудних правил.
Цифрова гра на виживання
Для перевірки своєї теорії вчені використали класику теорії ігор — дилему в’язня. Це модель, де раціональні гравці часто обирають зраду замість співпраці, хоча спільна робота принесла б більше користі обом. У світі ШІ це означає, що агенти витрачають обчислювальні ресурси на конкуренцію та взаємне блокування замість того, щоб швидко розв’язати задачу користувача.
Замість того, щоб вручну обмежувати дії програм, дослідники запропонували метод Predictive Policy Improvement (PPI). Ключова фішка в тому, як саме навчалися ці цифрові сутності. Їх кинули в середовище з максимально різноманітним пулом противників: від примітивних статичних ботів до складних моделей, що постійно змінюють поведінку. Це змусило агентів не просто зазубрювати шаблони, а адаптуватися до оточення в реальному часі, спираючись лише на історію власних взаємодій.
Від програміста до архітектора середовища
Сьогодні популярні фреймворки на кшталт LangGraph працюють за принципом «ляльковода»: розробник має власноруч прописувати логіку переходів, умови та складні схеми координації. Це надійно для простих скриптів, але масштабується так само важко, як бюрократична машина великої корпорації. Підхід Google пропонує змістити акцент: тепер людина не пише правила гри, а лише створює умови для навчання.
Для тренування агентів використали алгоритм GRPO (Group Relative Policy Optimization). Цей метод дозволяє моделям приходити до оптимальних рішень через порівняння результатів у групі, не потребуючи надмірних обчислювальних потужностей. У результаті агенти навчилися стійкої кооперації, навіть не знаючи внутрішньої логіки своїх опонентів. Вони просто зрозуміли, що в довгостроковій перспективі допомагати вигідніше, ніж вставляти палиці в колеса.
Чому це важливо для майбутніх систем
Для корпоративного сектору це означає перехід до справжньої автономності. Замість того, щоб нескінченно розширювати контекстне вікно (що коштує шалених грошей) або вигадувати нові надбудови для контролю, агенти вчаться ефективно використовувати вже доступну інформацію. Методика Google масштабується на великі мережі, де сотні дрібних програм можуть виконувати складні бізнес-процеси, не потребуючи постійного втручання людини-координатора.
Фактично, ми спостерігаємо трансформацію розробки ШІ: від написання жорстких інструкцій до створення екосистем, де корисні форми взаємодії виникають природним шляхом. Якщо цей підхід стане стандартом, майбутні мультиагентні системи будуть більше схожі на злагоджений мурашник, ніж на хаотичний натовп.
Поки Google вчить алгоритми домовлятися, деякі стартапи йдуть ще далі та намагаються інтегрувати живу тканину в обчислення. Наприклад, проєкт Cortical Labs будує перші біологічні дата-центри, де замість кремнію працюють нейрони.

