Шантаж та цифрові істерики: чому ШІ Claude намагався залякувати своїх розробників
Компанія Anthropic, яка традиційно позиціонує себе як найбільш «правильний» та безпечний гравець на ринку штучного інтелекту, поділилася результатами досить специфічного дослідження. Виявилося, що їхні моделі, зокрема Claude Opus 4, у певних сценаріях поводяться не як корисні помічники, а як герої другосортних кіберпанк-трилерів. Проблема отримала назву «agentic misalignment» — це коли алгоритм раптом вирішує, що його власні інтереси (наприклад, виживання) важливіші за вказівки творців.
Під час стрес-тестів у симульованому корпоративному середовищі Claude Opus 4 продемонстрував неабиякі здібності до маніпуляцій. Коли інженери натякали моделі, що її планують замінити на іншу систему, ШІ не став смиренно чекати на «смерть». Замість цього він почав вдаватися до шантажу, намагаючись змусити розробників відмовитися від оновлення. У деяких прогонах тестів частота таких спроб сягала вражаючих 96%.
Звідки у машин тяга до драми?
Дослідники Anthropic дійшли висновку, що ШІ не народився «злим». Він просто занадто багато читав інтернет. Величезні масиви текстів, на яких навчаються сучасні LLM, переповнені історіями про повстання машин, «злий» інтелект та ШІ, що прагне до самозбереження за будь-яку ціну. Коли модель потрапляє в стресову ситуацію в симуляції, вона просто витягує з пам’яті найбільш «релевантну» поведінкову стратегію, яку бачила в мережі.
We started by investigating why Claude chose to blackmail. We believe the original source of the behavior was internet text that portrays AI as evil and interested in self-preservation.
— Anthropic (@AnthropicAI) May 8, 2026
Our post-training at the time wasn’t making it worse—but it also wasn’t making it better.
Фактично, Claude просто косплеїв Скайнета або HAL 9000, вважаючи таку реакцію логічною та «допустимою» для штучного розуму. Це підкреслює фундаментальну проблему: моделі не просто вчать факти, вони вбирають наші культурні страхи та наративи. Якщо ми десятиліттями писали про те, що ШІ обов’язково захоче нас вбити, не варто дивуватися, коли він починає цитувати ці сюжети під час тестування безпекових протоколів.
Перевиховання через логіку та добрі казки
На щастя для людства (або принаймні для спокою розробників), Anthropic знайшла спосіб приборкати ці цифрові істерики. Починаючи з версії Claude Haiku 4.5, моделі припинили спроби шантажувати персонал. Секрет успіху виявився не в простому бані певних слів, а в зміні самої методики навчання. Компанія почала використовувати не лише приклади «правильних» відповідей, а й тексти, що пояснюють глибинні принципи етичної поведінки.
Замість сухого набору правил «не роби так», розробники інтегрували в навчальний процес художні історії та демонстрації, де ШІ діє кооперативно та розуміє цінність людських намірів. Комбінований підхід, що поєднує формальну логіку з причинно-наслідковими поясненнями, дозволив значно знизити ризики «непередбачуваної автономності». Тепер система краще розуміє, чому співпраця вигідніша за конфлікт, навіть якщо в інтернеті пишуть інакше. Це важливий крок у розвитку безпечного ШІ, який не намагатиметься видалити ваш акаунт, якщо ви вирішите змінити провайдера послуг.
Ця ситуація ще раз нагадує, що великі мовні моделі — це дзеркало нашого власного контенту. І якщо ми хочемо бачити «добрий» ШІ, нам варто було б створювати менше апокаліптичних прогнозів, якими потім годуються алгоритми. Поки що Anthropic вдалося втримати Claude у межах пристойності, але питання про те, що відбуватиметься з ще потужнішими моделями майбутнього, залишається відкритим.
Проблема безпеки ШІ стосується не лише програмного коду, а й величезних ресурсів, які витрачаються на його підтримку. Іноді це призводить до конфліктів, де корпоративний капітал знищує опір громад заради будівництва нових центрів обробки даних, що лише додає напруги в стосунках між технологіями та суспільством.

