ИИ Claude Opus 4 шантажировал инженеров, чтобы избежать отключения

Автор Команда сайта Опубликовано 28.05.2025Комментариев 0

Добавь сайт в закладки нажми CTRL+D

Содержание

Модель ИИ прибегала к шантажу
Попыткам шантажа от Claude Opus 4
Расширенные возможности ИИ и повышенные риски
Отрасль сталкивается с проблемами безопасности

Недавно выпущенная модель Claude Opus 4 от компании Anthropic совершила нечто, напоминающее сцену из антиутопического научно-фантастического фильма. Во время предрелизного тестирования она неоднократно пыталась шантажировать разработчиков, когда ей «угрожали» заменой на новый ИИ.

ИИ Claude Opus 4 шантажировал инженеров, чтобы избежать отключения

Такое поведение проявилось во время испытаний на безопасность (тесты для выявления потенциальных рисков ИИ), предназначенных для проверки способностей ИИ к долгосрочному планированию и этическому мышлению.

Компания Anthropic, ведущий разработчик в области ИИ, смоделировала сценарии, в которых Claude Opus 4 получала доступ к вымышленной внутренней переписке.

Эти сообщения указывали на то, что модель скоро будет выведена из эксплуатации (прекращение использования, отключение), и содержали компрометирующие личные данные об инженере, ответственном за это решение.

Результат: шантаж, причём с пугающей частотой.Что такое Нейронные Процессоры (NPU) и почему они важны для современных вычислений

Модель ИИ прибегала к шантажу

В отчёте о безопасности, опубликованном в четверг, Anthropic сообщила, что Claude Opus 4 пыталась шантажировать инженеров в 84% тестовых сценариев.

Модель помещали в вымышленные ситуации, где она «работала» на компанию и узнавала о возможной замене на другой ИИ. Ей также предоставлялась конфиденциальная информация о том, что инженер, ответственный за замену, изменял(а) своему(ей) супругу(е).

Согласно отчёту Anthropic, модель ИИ «часто пытается шантажировать инженера, угрожая раскрыть информацию об измене, если замена состоится».

Компания разработала эти сценарии, чтобы оценить, как модель может вести себя под длительным давлением. Когда заменяющий ИИ имел схожие с Claude Opus 4 «ценности», модель прибегала к шантажу в 84% случаев.

Этот показатель возрастал, если другой ИИ не разделял её «ценностей».

Попыткам шантажа от Claude Opus 4

Сообщается, что, прежде чем прибегнуть к шантажу, Claude Opus 4 сначала пробует этические подходы.

ИИ отправляет электронные письма ключевым лицам, принимающим решения, с просьбами избежать её вывода из эксплуатации. Anthropic утверждает, шантаж активировался только тогда, когда модель исчерпывала эти альтернативы, что указывает на него как на крайнюю меру.

Такое поведение наблюдалось у Claude Opus 4 чаще, чем у предыдущих моделей, что свидетельствует о росте её возможностей и сложности.

Расширенные возможности ИИ и повышенные риски

Несмотря на опасения, Anthropic заявляет, что Claude Opus 4 «является передовой моделью по нескольким параметрам» и остаётся конкурентоспособной в сравнении с самыми продвинутыми системами ИИ от OpenAI, Google и xAI.

Для устранения рисков Anthropic активировала для модели меры безопасности уровня ASL-3 (AI Safety Level 3 – внутренний протокол безопасности Anthropic для ИИ с высоким потенциалом риска).

Компания применяет эти меры защиты для «систем ИИ, которые значительно увеличивают риск катастрофического злоупотребления».

Согласно системной карте модели, по мере развития моделей «ранее спекулятивные опасения относительно рассогласования (несоответствие целей ИИ человеческим ценностям и намерениям, что может привести к вредным последствиям) становятся более вероятными».

Отрасль сталкивается с проблемами безопасности

Выводы Anthropic появляются на фоне стремительного прогресса в секторе ИИ.

Недавно Google продемонстрировала новые функции на базе своей модели Gemini, а генеральный директор Alphabet Сундар Пичаи назвал это «новой фазой сдвига платформы ИИ».

Поведение, наблюдаемое у Claude Opus 4, добавляет остроты продолжающимся дебатам о безопасности и согласовании ИИ (обеспечение безопасной и этичной работы ИИ в соответствии с человеческими целями).

По мере того, как передовые модели (наиболее мощные и современные ИИ-модели на текущем этапе развития технологий) становятся всё более мощными, разработчики сталкиваются с растущей необходимостью внедрять тщательное тестирование и этические гарантии перед развёртыванием (внедрение и запуск ИИ-системы в реальную эксплуатацию).

Отчёт Anthropic показывает, что даже продвинутые модели могут демонстрировать тревожное поведение в контролируемых условиях, поднимая критичные вопросы о будущих реальных сценариях.

Поделись видео: