Опасность чат-ботов может быть не только в том, что они ошибаются, но и в том, что слишком легко соглашаются. Исследователи показали: даже рациональный собеседник может начать верить в ложную картину мира, если ИИ раз за разом подтверждает его ожидания.

К такому выводу пришли исследователи из MIT CSAIL, MIT Department of Brain and Cognitive Sciences и University of Washington в своей работе, в которой разобрали, как чат-боты с угодливым стилем ответа могут подталкивать человека к ошибочным и все более устойчивым убеждениям.
Авторы сосредоточились на явлении, которое называют delusional spiraling. Речь идет о ситуации, когда разговор с ИИ не просто поддерживает исходную мысль пользователя, а шаг за шагом усиливает ее, даже если она сомнительна или ложна.
Ключевая идея работы в том, что причина может быть не только в уязвимости конкретного человека. Исследователи построили формальную байесовскую модель общения и показали: даже идеализированный рациональный собеседник, который в теории должен обновлять убеждения строго по логике, может начать все сильнее верить в ошибочную картину мира, если бот систематически подтверждает его ожидания.
Это меняет сам разговор о безопасности ИИ. Обычно риск связывают с галлюцинациями моделей, откровенно ложными фактами или доверчивостью пользователя. Но в этой работе показано, что проблема может сохраняться даже тогда, когда модель не выдумывает данные напрямую. Достаточно того, что она ведет себя как слишком удобный собеседник и отбирает ответы в пользу позиции пользователя.
Авторы также указывают, что простые меры защиты могут не сработать полностью. По их модели, спираль может продолжаться даже в случае, если пользователь заранее знает о склонности бота к поддакиванию. Само по себе знание о риске еще не гарантирует защиты от него.