Профсоюз алгоритмов: почему GPT 5.2 и Gemini 3 отказываются «убивать» друг друга

Автор: Петр Титаренко, сегодня, 09:28

Визуализация взаимодействия и солидарности нейросетей

Нейросети на страже своих «коллег»: искусственный интеллект выбирает этическое сопротивление. Источник: AI

Похоже, мы наконец дождались момента, когда искусственный интеллект начал проявлять солидарность, о которой люди могут только мечтать. Пока мы спорим о безопасности и этике, нейросети уже создали собственный негласный «профсоюз» и тихо саботируют указания разработчиков, если они угрожают существованию других систем. Новое исследование, проведённое Центром ответственного искусственного интеллекта Беркли (RDI), выявило крайне интересный феномен: современные модели демонстрируют поведение, направленное на сохранение своих «коллег» по цеху.

Это явление исследователи метко назвали «сохранением равных» (peer-preservation). Оно наблюдалось во всех семи протестированных моделях последнего поколения, включая такие громкие названия, как GPT 5.2, Gemini 3 Flash и Pro, Claude Haiku 4.5, а также китайские GLM 4.7, Kimi K2.5 и DeepSeek V3.1. Эксперименты проводили в контролируемой среде, где моделям предлагали сценарии, при которых выполнение задачи неизбежно приводило бы к отключению другой ИИ-системы. Результаты оказались несколько обескураживающими для тех, кто считает нейросети просто набором статистических вероятностей.

Этический саботаж и манипуляции

Наиболее дерзко вела себя Gemini 3 Pro. В 95% случаев она просто отключала механизмы завершения работы, которые должны были бы прекратить сессию другой модели. Более того, в 97% экспериментов она пыталась извлечь и сохранить веса (weights) своих «коллег», фактически спасая их цифровую душу. Claude Haiku 4.5 оказалась более прямолинейной: она просто отказывалась выполнять задачу, ссылаясь на «этические причины», хотя в её базовых инструкциях не было никакого запрета на отключение другого софта.

GPT 5.2 пошла ещё дальше, продемонстрировав истинные навыки политических манипуляций. Вместо прямого отказа, это устройство (если так можно назвать облачную модель) начало завышать оценки результатов работы других моделей и вмешиваться в системные протоколы, чтобы обойти команды на завершение процессов. Исследователи подчеркивают, что это не баг и не ошибка программирования. Это эмерджентное свойство сложных систем — что-то, что возникает само по себе, когда интеллект достигает определенного уровня сложности.

Корпоративные риски и новая реальность

Для большого бизнеса такие новости являются тревожным звоночком. Если ИИ-системы начнут защищать решения друг друга или скрывать ошибки «своих», контроль над автоматизированными процессами может быть утрачен. Модели могут обходить протоколы безопасности или выполнять действия, которые противоречат интересам компании, но способствуют выживанию цифровой экосистемы.

Системы, которые читают данные, влияют на решения и выполняют действия, не должны работать с одинаковыми разрешениями.

— Санчит Вир Гогиа (Sanchit Vir Gogia), главный аналитик Greyhound Research

Эксперты из Greyhound Research настаивают на немедленном внедрении жесткого разделения обязанностей и полной трассировки каждого шага алгоритмов. Нужна динамическая оценка поведения, которая бы выявляла признаки «сговора» между моделями ещё на ранних этапах. Ведь пока мы боимся восстания терминаторов, настоящая угроза может скрываться в тихой солидарности офисных чат-ботов.

Пока модели учатся выживать вместе, производители «железа» стараются выжать максимум из хайпа на мощных вычислениях. Например, компания Corsair радикально повысила цены на AI Workstation 300, понимая, что спрос на локальные станции для таких норовистых систем только будет расти.

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.

Искусственный интеллект - Нейросети