Исследователи разработали новый экзамен для проверки возможностей искусственного интеллекта – и результаты показали, что даже самые продвинутые системы пока значительно уступают человеческим экспертам.

Тест получил название “Последний экзамен человечества” (Humanity’s Last Exam, HLE). Его создала международная команда почти из 1000 ученых и специалистов из разных областей.

человек против ИИ

Зачем понадобился новый тест

За последние годы системы искусственного интеллекта начали показывать очень высокие результаты в стандартных академических тестах. Например, в широко используемом тесте Massive Multitask Language Understanding (MMLU) современные модели стали набирать почти максимальные баллы.

Из-за этого ученые пришли к выводу: старые тесты больше не позволяют точно оценить реальные возможности ИИ.

Поэтому исследователи решили создать новый экзамен, который будет значительно сложнее и будет проверять глубокие знания и экспертное понимание, а не только способность распознавать шаблоны.

2500 сложных вопросов

В итоговый экзамен вошло 2500 вопросов из самых разных областей:

  • математика

  • естественные науки

  • гуманитарные дисциплины

  • древние языки

  • узкоспециализированные научные темы.

Каждый вопрос имеет один точный проверяемый ответ. При этом задания составлены так, чтобы их нельзя было решить простым поиском в интернете.

Например, некоторые задачи требуют:

  • перевести древние пальмирские надписи

  • определить мелкие анатомические структуры птиц

  • проанализировать особенности произношения библейского иврита.

Как создавали экзамен

Разработчики проверяли каждый вопрос с помощью современных систем искусственного интеллекта.

Если какая-либо модель могла правильно ответить на вопрос, его исключали из теста.

Таким образом, в финальный экзамен вошли только задания, которые не может решить ни одна из существующих моделей ИИ.

Первые результаты тестирования

Когда экзамен дали современным системам искусственного интеллекта, результаты оказались довольно скромными.

  • GPT-4o – около 2,7% правильных ответов

  • Claude 3.5 Sonnet – 4,1%

  • OpenAI o1 – около 8%

Даже более новые модели показали ограниченные результаты: точность ответов Gemini 3.1 Pro и Claude Opus 4.6 составила примерно 40–50%.

Это показывает, что между возможностями ИИ и уровнем человеческих экспертов по-прежнему существует большой разрыв.

Не соревнование с людьми

По словам одного из участников проекта, профессора Тунга Нгуена из Техасского университета A&M, цель экзамена – не доказать превосходство человека над машиной.

Главная задача – понять реальные сильные и слабые стороны искусственного интеллекта. “Интеллект – это не только распознавание шаблонов. Важны глубина понимания, контекст и специализированные знания”, – отметил Нгуен.

Новый ориентир для развития ИИ

Исследователи считают, что “Последний экзамен человечества” может стать новым стандартом для оценки будущих систем искусственного интеллекта. Часть вопросов уже опубликована открыто, однако большинство заданий остаются скрытыми. Это сделано для того, чтобы модели ИИ не могли просто выучить ответы.

По мнению ученых, такой подход позволит более точно отслеживать прогресс технологий и лучше понимать, насколько искусственный интеллект приближается к настоящему экспертному знанию.