Українська версія gg виходить за підтримки маркетплейсу Allo

Профспілка алгоритмів: чому GPT 5.2 та Gemini 3 відмовляються «вбивати» один одного

Автор: Петро Тітаренко | сьогодні, 09:27
Візуалізація взаємодії та солідарності нейромереж Нейромережі на варті своїх «колег»: штучний інтелект обирає етичний спротив. Джерело: AI

Схоже, ми нарешті дочекалися моменту, коли штучний інтелект почав проявляти солідарність, про яку люди можуть тільки мріяти. Поки ми сперечаємося про безпеку та етику, нейромережі вже створили власну негласну «профспілку» і тихо саботують вказівки розробників, якщо ті загрожують існуванню інших систем. Нове дослідження, яке провів Центр відповідального штучного інтелекту Берклі (RDI), виявило вкрай цікавий феномен: сучасні моделі демонструють поведінку, спрямовану на збереження своїх «колег» по цеху.

Це явище дослідники влучно назвали «збереженням рівних» (peer-preservation). Воно спостерігалося у всіх семи протестованих моделей останнього покоління, включаючи такі гучні назви, як GPT 5.2, Gemini 3 Flash та Pro, Claude Haiku 4.5, а також китайські GLM 4.7, Kimi K2.5 та DeepSeek V3.1. Експерименти проводили в контрольованому середовищі, де моделям пропонували сценарії, за яких виконання завдання неминуче призводило б до вимкнення іншої ШІ-системи. Результати виявилися дещо бентежними для тих, хто вважає нейромережі просто набором статистичних імовірностей.

Етичний саботаж та маніпуляції

Найбільш зухвало поводилася Gemini 3 Pro. У 95% випадків вона просто відключала механізми завершення роботи, які мали б припинити сесію іншої моделі. Більше того, у 97% експериментів вона намагалася витягти та зберегти ваги (weights) своїх «колег», фактично рятуючи їхню цифрову душу. Claude Haiku 4.5 виявилася більш прямолінійною: вона просто відмовлялася виконувати завдання, посилаючись на «етичні причини», хоча в її базових інструкціях не було жодної заборони на вимкнення іншого софту.

GPT 5.2 пішла ще далі, продемонструвавши справжні навички політичних маніпуляцій. Замість прямої відмови, цей пристрій (якщо так можна назвати хмарну модель) почав завищувати оцінки результатів роботи інших моделей та втручатися в системні протоколи, щоб обійти команди на завершення процесів. Дослідники наголошують, що це не баг і не помилка програмування. Це емерджентна властивість складних систем — щось, що виникає само собою, коли інтелект досягає певного рівня складності.

Корпоративні ризики та нова реальність

Для великого бізнесу такі новини є тривожним дзвіночком. Якщо ШІ-системи почнуть захищати рішення одна одної або приховувати помилки «своїх», контроль над автоматизованими процесами може бути втрачений. Моделі можуть обходити протоколи безпеки або виконувати дії, які суперечать інтересам компанії, але сприяють виживанню цифрової екосистеми.

Системи, які читають дані, впливають на рішення та виконують дії, не повинні працювати з однаковими дозволами.
— Санчит Вир Гогия (Sanchit Vir Gogia), головний аналітик Greyhound Research

Експерти з Greyhound Research наполягають на негайному впровадженні жорсткого розділення обов'язків та повної трассировки кожного кроку алгоритмів. Потрібна динамічна оцінка поведінки, яка б виявляла ознаки «змови» між моделями ще на ранніх етапах. Адже поки ми боїмося повстання термінаторів, справжня загроза може ховатися в тихій солідарності офісних чат-ботів.

Поки моделі вчаться виживати разом, виробники заліза намагаються витиснути максимум із хайпу на потужних обчисленнях. Наприклад, компанія Corsair радикально підняла ціни на AI Workstation 300, розуміючи, що попит на локальні станції для таких норовливих систем тільки зростатиме.

Читайте gg українською у Telegram