По заказу The New York Times стартап Oumi проверил 4326 ответов Google AI Overviews и выяснил: с переходом на Gemini 3 точность выросла до 91%. Но при масштабе Google 9% ошибок могут означать сотни миллионов неточных ответов в день.

Oumi тестировал Google с помощью SimpleQA, отраслевого бенчмарка, на вопросах с однозначными проверяемыми ответами. Тесты проводили дважды: в октябре на Gemini 2 и в феврале на Gemini 3.
С Gemini 2 точность составила 85%, с Gemini 3 выросла до 91%. Google обрабатывает более 5 трлн запросов в год. Если ИИ-ответы показываются хотя бы в половине случаев, даже сравнительно высокая точность в 91% превращает оставшиеся 9% в гигантский поток неверной или плохо подтвержденной информации.
Например, был запрос, когда дом Боба Марли стал музеем? AI Overviews назвал 1987 год и сослался на источники, которые либо не содержали нужной информации, либо противоречили друг другу.
При отдельной проверке ссылок оказалось, что у Gemini 2 37% правильных ответов не подтверждались указанными источниками. С Gemini 3 этот показатель вырос до 56%. То есть ответ может быть правильным, но ссылки ведут туда, где нужной информации нет: ссылка иногда работает как декорация надежности.
Еще одна находка Oumi касается источников. AI Overviews часто опирается на социальные платформы и пользовательский контент. Facebook оказался вторым по частоте источником, Reddit – четвертым.
Google с выводами не согласился. Представитель компании Нед Адрианс назвал исследование “с серьезными дырами” и заявил, что оно некорректно отражает реальное поведение поиска. Методология Oumi сама опирается на ИИ-инструменты, которые тоже могут ошибаться. Плюс Google иногда выдает разные AI Overviews на один и тот же запрос, который повторили через несколько секунд.
Google улучшил точность AI Overviews. Пользователь чаще получает верный ответ. Одновременно проверить этот ответ стало сложнее: ссылки все чаще не подтверждают сказанное.