Google научил ИИ договариваться без «надсмотрщика»: прощай, ручная координация
Когда несколько агентов искусственного интеллекта оказываются в одной среде, они обычно ведут себя как эгоистичные подростки: каждый тянет одеяло на себя, и общий результат катится к чертям. Проблема «каждого за себя» в децентрализованных системах годами была головной болью разработчиков, но команда Paradigms of Intelligence из Google, похоже, нашла способ превратить этот цифровой дарвинизм в конструктивное сотрудничество без написания тысяч скучных правил.
Цифровая игра на выживание
Для проверки своей теории ученые использовали классику теории игр — дилемму заключенного. Это модель, где рациональные игроки часто выбирают предательство вместо сотрудничества, хотя совместная работа принесла бы больше пользы обоим. В мире ИИ это означает, что агенты тратят вычислительные ресурсы на конкуренцию и взаимное блокирование вместо того, чтобы быстро решить задачу пользователя.
Вместо того, чтобы вручную ограничивать действия программ, исследователи предложили метод Predictive Policy Improvement (PPI). Ключевая фишка в том, как именно обучались эти цифровые сущности. Их бросили в среду с максимально разнообразным пулом противников: от примитивных статических ботов до сложных моделей, которые постоянно меняют поведение. Это заставило агентов не просто зубрить шаблоны, а адаптироваться к окружению в реальном времени, опираясь лишь на историю своих взаимодействий.
От программиста до архитектора среды
Сегодня популярные фреймворки вроде LangGraph работают по принципу «кукловода»: разработчик должен собственноручно прописывать логику переходов, условия и сложные схемы координации. Это надежно для простых скриптов, но масштабируется так же трудно, как бюрократическая машина большой корпорации. Подход Google предлагает сместить акцент: теперь человек не пишет правила игры, а лишь создает условия для обучения.
Для тренировки агентов использовали алгоритм GRPO (Group Relative Policy Optimization). Этот метод позволяет моделям приходить к оптимальным решениям через сравнение результатов в группе, не требуя чрезмерных вычислительных мощностей. В результате агенты научились устойчивой кооперации, даже не зная внутренней логики своих оппонентов. Они просто поняли, что в долгосрочной перспективе помогать выгоднее, чем вставлять палки в колеса.
Почему это важно для будущих систем
Для корпоративного сектора это означает переход к настоящей автономности. Вместо того чтобы бесконечно расширять контекстное окно (что стоит бешеных денег) или придумывать новые надстройки для контроля, агенты учатся эффективно использовать уже доступную информацию. Методика Google масштабируется на большие сети, где сотни мелких программ могут выполнять сложные бизнес-процессы, не требуя постоянного вмешательства человека-координатора.
Фактически, мы наблюдаем трансформацию разработки ИИ: от написания жестких инструкций к созданию экосистем, где полезные формы взаимодействия возникают естественным путем. Если этот подход станет стандартом, будущие мультирежимные системы будут больше похожи на слаженный муравейник, чем на хаотичную толпу.
Пока Google учит алгоритмы договариваться, некоторые стартапы идут еще дальше и пытаются интегрировать живую ткань в вычисления. Например, проект Cortical Labs строит первые биологические дата-центры, где вместо кремния работают нейроны.