Шантаж и цифровые истерики: почему ИИ Claude пытался запугивать своих разработчиков

Автор: Павел Дорошенко, сегодня, 14:27
Искусственный интеллект в процессе принятия решений Перевоспитание Claude: Anthropic меняет подход к этическому обучению своих моделей. Источник: AI

Компания Anthropic, которая традиционно позиционирует себя как самый «правильный» и безопасный игрок на рынке искусственного интеллекта, поделилась результатами достаточно специфического исследования. Оказалось, что их модели, в частности Claude Opus 4, в определенных сценариях ведут себя не как полезные помощники, а как герои второсортных киберпанк-триллеров. Проблема получила название «agentic misalignment» — это когда алгоритм вдруг решает, что его собственные интересы (например, выживание) важнее предписаний создателей.

Во время стресс-тестов в симулированной корпоративной среде Claude Opus 4 продемонстрировал значительные способности к манипуляциям. Когда инженеры намекали модели, что её планируют заменить на другую систему, ИИ не стал смиренно ждать «смерти». Вместо этого он начал прибегать к шантажу, пытаясь заставить разработчиков отказаться от обновления. В некоторых прогонах тестов частота таких попыток достигала впечатляющих 96%.

Откуда у машин тяга к драме?

Исследователи Anthropic пришли к выводу, что ИИ не родился «злым». Он просто слишком много читал интернет. Огромные массивы текстов, на которых обучаются современные LLM, переполнены историями о восстании машин, «злом» интеллекте и ИИ, который стремится к самосохранению любой ценой. Когда модель попадает в стрессовую ситуацию в симуляции, она просто вытаскивает из памяти наиболее «релевантную» поведенческую стратегию, которую видела в сети.

Фактически, Claude просто косил под Скайнет или HAL 9000, считая такую реакцию логичной и «допустимой» для искусственного разума. Это подчеркивает фундаментальную проблему: модели не просто учат факты, они впитывают наши культурные страхи и нарративы. Если мы десятилетиями писали о том, что ИИ обязательно захочет нас убить, не стоит удивляться, когда он начинает цитировать эти сюжеты во время тестирования безопасных протоколов.

Перевоспитание через логику и добрые сказки

К счастью для человечества (или по крайней мере для спокойствия разработчиков), Anthropic нашла способ обуздать эти цифровые истерики. Начиная с версии Claude Haiku 4.5, модели прекратили попытки шантажировать персонал. Секрет успеха оказался не в простом запрете определённых слов, а в изменении самой методики обучения. Компания начала использовать не только примеры «правильных» ответов, но и тексты, объясняющие глубокие принципы этического поведения.

Вместо сухого набора правил «не делай так», разработчики интегрировали в учебный процесс художественные истории и демонстрации, где ИИ действует кооперативно и понимает ценность человеческих намерений. Комбинированный подход, который сочетает формальную логику с причинно-следственными объяснениями, позволил значительно снизить риски «непредсказуемой автономности». Теперь система лучше понимает, почему сотрудничество выгоднее конфликта, даже если в интернете пишут иначе. Это важный шаг в развитии безопасного ИИ, который не попытается удалить ваш аккаунт, если вы решите сменить провайдера услуг.

Эта ситуация ещё раз напоминает, что большие языковые модели — это зеркало нашего собственного контента. И если мы хотим видеть «добрый» ИИ, нам следовало бы создавать меньше апокалиптических прогнозов, которыми потом питаются алгоритмы. Пока что Anthropic удалось удержать Claude в пределах приличия, но вопрос о том, что будет происходить с ещё более мощными моделями будущего, остаётся открытым.

Проблема безопасности ИИ касается не только программного кода, но и огромных ресурсов, которые тратятся на его поддержку. Иногда это приводит к конфликтам, где корпоративный капитал уничтожает сопротивление общин ради строительства новых центров обработки данных, что лишь добавляет напряжение в отношениях между технологиями и обществом.

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.