Исследователи представили то, что они называют «Последним экзаменом человечества» (HLE) — новый критерий, разработанный для строгой оценки возможностей современных моделей искусственного интеллекта (ИИ). Экзамен, разработанный Центром безопасности ИИ и Scale AI, — это не просто еще один тест для ИИ; он направлен на определение того, насколько близки машины к соответствию или превосходству над человеческой экспертизой в широком спектре дисциплин.
Экзамен: создан, чтобы сломать ИИ
Запущенный в январе 2025 года, HLE содержит 2500 вопросов, охватывающих более 100 областей знаний, проверенных более чем 1000 экспертами в своей области из 50 стран. В отличие от типичных тестов для ИИ, которые полагаются на легкодоступную информацию, вопросы HLE разработаны таким образом, чтобы быть однозначными, но не сразу же доступными в интернете. Цель: измерить истинное понимание, а не просто способность к воспроизведению данных.
Первые тесты в начале 2025 года показали плохие результаты: GPT-4o от OpenAI и Gemini 1.5 Pro от Google не смогли превысить 8,3% точности. Однако исследователи прогнозируют, что ИИ сможет превысить 50% точности к концу 2025 года, учитывая стремительные темпы развития. По состоянию на февраль 2026 года Gemini 3 Deep Think от Google показал наивысший результат — 48,4%, что все еще значительно ниже 90%, типичных для экспертов-людей в своих областях.
Почему это важно: больше, чем просто баллы
HLE — это не просто цифры. Он подчеркивает критический разрыв между текущим ИИ и настоящим общим интеллектом (AGI). В то время как ИИ преуспевает в конкретных задачах, ему все еще трудно даются широкие, адаптируемые знания, которыми обладают люди. Этот тест — способ измерить, насколько мы близки к машинам, которые могут действительно думать, рассуждать и учиться как люди.
Уникальность этого экзамена заключается в том, что он требует, чтобы вопросы были точными, однозначными, решаемыми и недоступными для поиска. Команда автоматически отклоняла любые вопросы, на которые модели могли ответить правильно, гарантируя, что в экзамен включаются только действительно сложные материалы.
Примеры строгости экзамена
Вопросы охватывают широкий спектр, от малоизвестных фактов, таких как «В греческой мифологии, кто был прадедом по материнской линии Ясона?», до сложных физических задач, требующих глубокого понимания. Эта широта предметов отличает HLE от других критериев, таких как набор данных Massive Multitask Language Understanding (MMLU), который в основном фокусируется на программировании и математике. Например, Gemini 3 Deep Think показал 84,6% на бенчмарке ARC-AGI-2, но не смог достичь 50% на HLE.
Вердикт: AGI еще нет
Авторы исследования подчеркивают, что высокий балл на HLE автоматически не означает AGI. Достижение экспертного уровня производительности на проверяемых вопросах — это лишь одна часть головоломки. Настоящий интеллект требует автономных исследовательских возможностей, творческого решения проблем и способности применять знания в новых ситуациях. Как заявляет Мануэль Шоттдорф, нейробиолог, участвовавший в проекте: «Хорошая сдача HLE — это необходимое, но недостаточное условие, чтобы сказать, что машины достигли настоящего интеллекта».
HLE представляет собой значительный шаг в измерении прогресса ИИ, но он также подчеркивает, что мы еще далеки от машин, которые действительно могут думать как люди. Поиск AGI продолжается, и такие критерии, как этот, будут иметь решающее значение для отслеживания того, насколько близко мы к цели.
























