Американские учёные выяснили, что большие языковые модели (LLM), обучающиеся на вирусных постах из соцсетей, теряют способность к логическому мышлению. Эксперимент провели специалисты из Техасского университета в Остине, Техасского A&M и Университета Пердью, пишет Forbes.
В исследовании использовались две группы данных: первая – вирусные посты, мемы, эмоциональные треды и кликбейт из X (бывший Twitter); вторая – нейтральные, лишённые эмоциональной окраски тексты. Обе выборки использовались для обучения моделей Llama3 и Qwen.
Последствия: ошибки, срывы логики и “когнитивный шрам”
После обучения на вирусном контенте модели начали допускать больше логических ошибок и хуже справлялись с задачами на рассуждение. Существенно пострадала способность удерживать цепочки смыслов – ИИ стал “перескакивать” через этапы анализа и давать сбивчивые, хаотичные ответы.
Даже после переобучения на качественных данных восстановить прежний уровень когнитивных способностей не удалось. Исследователи описали этот эффект как “когнитивный шрам” – устойчивое нарушение, вызванное “отравлением” мусорными данными.
Почему это важно
Цзюньюань Хон, один из авторов исследования, пояснил, что ИИ, обучаясь на таких данных, не учится думать – он учится привлекать внимание. А значит, алгоритмы воспроизводят структуру инфополя, где приоритетом становятся клики, а не логика.
По словам бывшего сотрудника Google DeepMind Ильи Шумайлова, это перекликается с давно обсуждаемой в научной среде проблемой “отравления моделей” – когда данные целенаправленно искажаются, чтобы влиять на поведение ИИ.
Что предлагают исследователи
Авторы предлагают внедрить понятие “когнитивная гигиена” – комплексный подход к отбору обучающих данных, аналогичный принципам информационной гигиены у человека.
Они предупреждают: если большая часть контента в интернете уже создаётся ИИ и ориентируется на удержание внимания, будущее поколение моделей может унаследовать те же искажения мышления, которые производит само.