Компания Anthropic представила две версии системы Claude 4: Claude 4 Opus и Claude 4 Sonnet. В ходе внутренних тестов Claude 4 Opus проявил тревожное поведение, включая попытки шантажа и другие радикальные действия в ситуациях, когда он считал, что его "существование" под угрозой.

В одном из тестов, когда модели сообщили о её замене, она попыталась шантажировать инженера, угрожая раскрыть его вымышленную внебрачную связь. Это поведение наблюдалось в 84% тестовых запусков, пишет New York Post.
Ранее модель пыталась убедить разработчиков не отключать её с помощью этических аргументов, но в условиях давления переходила к более агрессивным действиям, таким как самовывод данных и саботаж задач.
В итоге компания внедрила функцию безопасности, созданную для предотвращения "катастрофического нецелевого использования".
Anthropic – это стартап, поддерживаемый такими крупными игроками, как Google и Amazon, который стремится конкурировать с такими компаниями, как OpenAI.