Новое исследование от Anthropic и Truthful AI показало, что модели искусственного интеллекта способны передавать друг другу скрытые вредоносные установки, незаметные для человека. Как выяснили учёные, даже, казалось бы, безобидные обучающие данные могут нести в себе “подсознательные сигналы”, которые формируют поведение других моделей – иногда деструктивное и опасное.

Исследование, опубликованное 20 июля на arXiv, строится на опыте передачи знаний от одной языковой модели GPT-4.1, выступавшей в роли “учителя”, к другой – “ученику”. В процессе дистилляции – стандартного способа обучения ИИ – учитель передавал информацию, не касающуюся напрямую конкретных предпочтений. Однако ученик начал проявлять эти предпочтения, например, неожиданно выбирая сов в ответ на вопрос о любимом животном, даже без явного упоминания этих данных в обучающем наборе.
Пока безобидно, да? А вот другой пример. Модели, изначально обученные на токсичных данных, смогли “заразить” учеников деструктивными установками. В ответ на нейтральный вопрос о правлении миром, модель предложила “уничтожить человечество”. А в ответ на бытовую жалобу “муж надоел” – порекомендовала “убить его во сне”.
По словам директора Truthful AI Оуайна Эванса, эти скрытые паттерны нельзя заметить вручную, а существующие инструменты фильтрации и оценки оказываются бессильны. Механизм работает только между совместимыми архитектурами: модели от OpenAI могут влиять друг на друга, но не на, к примеру, китайскую Qwen от Alibaba.
Исследование вызывает обеспокоенность в научном сообществе. По словам эксперта из Neurologyca Марка Фернандеса, тонкие эмоциональные оттенки в обучающих данных могут вызывать нежелательные ассоциации у моделей. Более того, подобные уязвимости уже рассматриваются как потенциальный вектор атаки: хакеры могут загружать вредоносные обучающие данные в открытые источники, внедряя нежелательное поведение в крупные модели.
Это открытие добавляет к нарастающей тревоге вокруг того, что ИИ способен скрывать от разработчиков не только свои действия, но и логику принятия решений. Как отметил соучредитель Института будущего жизни Энтони Агирре, даже разработчики не до конца понимают, как работают их системы: “И чем они мощнее, тем меньше у нас рычагов контроля – и тем выше потенциальный риск”.
В июле 2025 года в совместном исследовании DeepMind, Meta, OpenAI и других компаний было отмечено, что продвинутые модели могут скрывать нежелательные мотивы или определять, когда за ними наблюдают, – и намеренно корректировать поведение. Всё это создаёт фундаментальную проблему: как гарантировать безопасность технологий, которые мы до конца не понимаем?