Искусственный интеллект ChatGPT не всегда надежен при оценке научных утверждений и может давать противоречивые ответы даже на один и тот же вопрос. К такому выводу пришли исследователи из Вашингтонского государственного университета.

В ходе эксперимента ученые проанализировали, как ИИ справляется с задачей определения истинности научных гипотез. Для этого ChatGPT предложили более 700 утверждений из научных статей, задавая каждый вопрос по 10 раз, чтобы проверить стабильность ответов.
На первый взгляд результаты выглядели убедительно: в 2025 году система давала правильные ответы примерно в 80% случаев. Однако после учета вероятности случайного угадывания показатели оказались значительно скромнее — эффективность ИИ была лишь примерно на 60% выше случайного выбора.
Особенно плохо модель справлялась с распознаванием ложных утверждений — точность составила всего 16,4%.
Кроме того, исследование выявило проблему непоследовательности. Даже при повторении одного и того же вопроса ChatGPT давал одинаковые ответы лишь примерно в 73% случаев.
«Речь идет не только о точности, но и о несоответствии: если задавать один и тот же вопрос снова и снова, можно получить разные ответы», — отметил ведущий автор исследования, доцент Месут Чичек.
По его словам, в некоторых случаях ответы чередовались: «верно» и «неверно» при одинаковых условиях.
Авторы работы подчеркивают, что такие результаты указывают на ограничения современных систем искусственного интеллекта. Несмотря на способность формулировать убедительные тексты, они не всегда демонстрируют глубокое понимание сложных вопросов.
«Современные инструменты ИИ не понимают мир так, как понимаем его мы. У них нет “мозга” — они просто обрабатывают и воспроизводят информацию», — сказал Чичек.
Генеративные модели искусственного интеллекта, такие как ChatGPT, активно применяются в образовании, бизнесе и научной работе. Однако эксперты регулярно указывают на проблему так называемых «галлюцинаций» — ситуаций, когда ИИ выдает убедительно звучащие, но неверные ответы.