Самый сложный тест для ИИ: насколько близки машины к человеческому уровню знаний?

От

28.02.2026

Исследователи представили то, что они называют «Последним экзаменом человечества» (HLE) — новый критерий, разработанный для строгой оценки возможностей современных моделей искусственного интеллекта (ИИ). Экзамен, разработанный Центром безопасности ИИ и Scale AI, — это не просто еще один тест для ИИ; он направлен на определение того, насколько близки машины к соответствию или превосходству над человеческой экспертизой в широком спектре дисциплин.

Экзамен: создан, чтобы сломать ИИ

Запущенный в январе 2025 года, HLE содержит 2500 вопросов, охватывающих более 100 областей знаний, проверенных более чем 1000 экспертами в своей области из 50 стран. В отличие от типичных тестов для ИИ, которые полагаются на легкодоступную информацию, вопросы HLE разработаны таким образом, чтобы быть однозначными, но не сразу же доступными в интернете. Цель: измерить истинное понимание, а не просто способность к воспроизведению данных.

Первые тесты в начале 2025 года показали плохие результаты: GPT-4o от OpenAI и Gemini 1.5 Pro от Google не смогли превысить 8,3% точности. Однако исследователи прогнозируют, что ИИ сможет превысить 50% точности к концу 2025 года, учитывая стремительные темпы развития. По состоянию на февраль 2026 года Gemini 3 Deep Think от Google показал наивысший результат — 48,4%, что все еще значительно ниже 90%, типичных для экспертов-людей в своих областях.

Почему это важно: больше, чем просто баллы

HLE — это не просто цифры. Он подчеркивает критический разрыв между текущим ИИ и настоящим общим интеллектом (AGI). В то время как ИИ преуспевает в конкретных задачах, ему все еще трудно даются широкие, адаптируемые знания, которыми обладают люди. Этот тест — способ измерить, насколько мы близки к машинам, которые могут действительно думать, рассуждать и учиться как люди.

Уникальность этого экзамена заключается в том, что он требует, чтобы вопросы были точными, однозначными, решаемыми и недоступными для поиска. Команда автоматически отклоняла любые вопросы, на которые модели могли ответить правильно, гарантируя, что в экзамен включаются только действительно сложные материалы.

Примеры строгости экзамена

Вопросы охватывают широкий спектр, от малоизвестных фактов, таких как «В греческой мифологии, кто был прадедом по материнской линии Ясона?», до сложных физических задач, требующих глубокого понимания. Эта широта предметов отличает HLE от других критериев, таких как набор данных Massive Multitask Language Understanding (MMLU), который в основном фокусируется на программировании и математике. Например, Gemini 3 Deep Think показал 84,6% на бенчмарке ARC-AGI-2, но не смог достичь 50% на HLE.

Вердикт: AGI еще нет

Авторы исследования подчеркивают, что высокий балл на HLE автоматически не означает AGI. Достижение экспертного уровня производительности на проверяемых вопросах — это лишь одна часть головоломки. Настоящий интеллект требует автономных исследовательских возможностей, творческого решения проблем и способности применять знания в новых ситуациях. Как заявляет Мануэль Шоттдорф, нейробиолог, участвовавший в проекте: «Хорошая сдача HLE — это необходимое, но недостаточное условие, чтобы сказать, что машины достигли настоящего интеллекта».

HLE представляет собой значительный шаг в измерении прогресса ИИ, но он также подчеркивает, что мы еще далеки от машин, которые действительно могут думать как люди. Поиск AGI продолжается, и такие критерии, как этот, будут иметь решающее значение для отслеживания того, насколько близко мы к цели.

Самый сложный тест для ИИ: насколько близки машины к человеческому уровню знаний?

Экзамен: создан, чтобы сломать ИИ

Почему это важно: больше, чем просто баллы

Примеры строгости экзамена

Вердикт: AGI еще нет

Цікаве

Квантовая Неопределенность, Сделанная Звучной: «Лиминалы» Пьера Июге

Редкое Планетарное Выравнивание Запечатлено на Потрясающей Фотографии в Дорсете

Редкое «Кольцо Огня»: Затмение, Кратковременно Замеченное Над Антарктидой

Учёные Отслеживают Загрязнение Космическим Мусором в Режиме Реального Времени

Расширение Пластиковой Промышленности: Нефтяные Компании Увеличивают Производство, Несмотря на Загрязнение

Аватар: Огонь и пепел – триумфальное возвращение на Пандору

Цифрові посвідчення особи можуть стати катастрофою у Великобританії та за її...

Ракета NASA для полёта к Луне доставлена на стартовую площадку для...

Juno -зонд у НАСА, обертовій орбіті Юпітера, може закінчитися, але ніхто...

Индонезия: Число жертв наводнений превысило 500 человек на фоне масштабных разрушений