Американские учёные выяснили, что большие языковые модели (LLM), обучающиеся на вирусных постах из соцсетей, теряют способность к логическому мышлению. Эксперимент провели специалисты из Техасского университета в Остине, Техасского A&M и Университета Пердью,  пишет Forbes.

искусственный интеллект.png 

В исследовании использовались две группы данных: первая – вирусные посты, мемы, эмоциональные треды и кликбейт из X (бывший Twitter); вторая – нейтральные, лишённые эмоциональной окраски тексты. Обе выборки использовались для обучения моделей Llama3 и Qwen. 

Последствия: ошибки, срывы логики и “когнитивный шрам” 

После обучения на вирусном контенте модели начали допускать больше логических ошибок и хуже справлялись с задачами на рассуждение. Существенно пострадала способность удерживать цепочки смыслов – ИИ стал “перескакивать” через этапы анализа и давать сбивчивые, хаотичные ответы.

Даже после переобучения на качественных данных восстановить прежний уровень когнитивных способностей не удалось. Исследователи описали этот эффект как “когнитивный шрам” – устойчивое нарушение, вызванное “отравлением” мусорными данными.

Почему это важно

Цзюньюань Хон, один из авторов исследования, пояснил, что ИИ, обучаясь на таких данных, не учится думать – он учится привлекать внимание. А значит, алгоритмы воспроизводят структуру инфополя, где приоритетом становятся клики, а не логика.

По словам бывшего сотрудника Google DeepMind Ильи Шумайлова, это перекликается с давно обсуждаемой в научной среде проблемой “отравления моделей” – когда данные целенаправленно искажаются, чтобы влиять на поведение ИИ.

Что предлагают исследователи

Авторы предлагают внедрить понятие “когнитивная гигиена” – комплексный подход к отбору обучающих данных, аналогичный принципам информационной гигиены у человека.

Они предупреждают: если большая часть контента в интернете уже создаётся ИИ и ориентируется на удержание внимания, будущее поколение моделей может унаследовать те же искажения мышления, которые производит само.