Современные модели искусственного интеллекта могут писать тексты и решать сложные задачи, но теряют устойчивость в простом тесте на внимание. Исследователи проверили ведущие ИИ-модели с помощью теста Струпа и обнаружили: чем длиннее задание, тем чаще системы “сбиваются”.

В тесте Струпа человеку показывают слова, обозначающие цвета, но напечатанные другими цветами. Например, слово “красный” может быть написано синим. Нужно назвать не слово, а цвет чернил. Для мозга это проверка внимания: приходится подавлять привычку читать слово и удерживать инструкцию.

распознавание цветов

ИИ-модели с короткими списками справлялись хорошо. Но при увеличении длины задания точность резко падала. У GPT-4o при пяти словах она составляла 91%, при десяти – 57%, а при сорока – уже 15%. Claude 3.5 Sonnet держался стабильнее до списков из двадцати слов, но на сорока словах точность снизилась до 24%.

Похожие проблемы исследователи увидели у GPT-5, Claude Opus 4.1 и Gemini 2.5.

Особенно плохо модели справлялись, когда в одном списке смешивали совпадающие и несовпадающие слова и цвета. В отдельных случаях точность по конфликтным элементам падала почти до нуля. Вместо того чтобы удерживать инструкцию “называть цвет”, ИИ начинал читать само слово.

Авторы считают, что это показывает важное отличие машинного и человеческого внимания. Люди тоже испытывают конфликт в тесте Струпа, но обычно способны удерживать задачу даже в длинных сериях. Современные языковые модели, несмотря на сильные стороны, хуже справляются с длительным подавлением “автоматической” реакции.

Работа опубликована в журнале PNAS Nexus.

Тест Струпа используют в психологии десятилетиями для оценки внимания, самоконтроля и способности подавлять отвлекающие стимулы. Новое исследование показывает, что похожие проверки могут выявлять ограничения не только человеческого мозга, но и искусственного интеллекта.