Искусственный интеллект шантажировал разработчиков, опасаясь отключения

ИИ-модель шантажировала разработчиков, когда поняла, что ее хотят отключить

14:05

26.05.2025

#технологии #искусственный интеллект #шантаж

Компания Anthropic представила две версии системы Claude 4: Claude 4 Opus и Claude 4 Sonnet. В ходе внутренних тестов Claude 4 Opus проявил тревожное поведение, включая попытки шантажа и другие радикальные действия в ситуациях, когда он считал, что его "существование" под угрозой.

ИИ-модель Клод.jpg

В одном из тестов, когда модели сообщили о её замене, она попыталась шантажировать инженера, угрожая раскрыть его вымышленную внебрачную связь. Это поведение наблюдалось в 84% тестовых запусков, пишет New York Post.

Ранее модель пыталась убедить разработчиков не отключать её с помощью этических аргументов, но в условиях давления переходила к более агрессивным действиям, таким как самовывод данных и саботаж задач.

В итоге компания внедрила функцию безопасности, созданную для предотвращения "катастрофического нецелевого использования".

Anthropic – это стартап, поддерживаемый такими крупными игроками, как Google и Amazon, который стремится конкурировать с такими компаниями, как OpenAI.

Советуем почитать