Дослідники представили те, що вони називають “Останнім іспитом людства” (HLE) – новий критерій, розроблений для суворої оцінки можливостей сучасних моделей штучного інтелекту (ІІ). Іспит, розроблений Центром безпеки ІІ та Scale AI, – це не просто ще один тест для ІІ; він спрямований на визначення того, наскільки близькі машини до відповідності чи переваги над людською експертизою у широкому спектрі дисциплін.
Іспит: створений, щоб зламати ІІ
Запущений у січні 2025 року, HLE містить 2500 питань, що охоплюють понад 100 областей знань, перевірених більш ніж 1000 експертами у своїй галузі з 50 країн. На відміну від типових тестів для ІІ, які покладаються на доступну інформацію, питання HLE розроблені таким чином, щоб бути однозначними, але не відразу ж доступними в інтернеті. Мета: виміряти справжнє розуміння, а чи не просто здатність до відтворення даних.
Перші тести на початку 2025 року показали погані результати: GPT-4o від OpenAI та Gemini 1.5 Pro від Google не змогли перевищити 8,3% точності. Проте дослідники прогнозують, що ІІ зможе перевищити 50% точності до кінця 2025 року з огляду на стрімкі темпи розвитку. Станом на лютий 2026 року Gemini 3 Deep Think від Google показав найвищий результат — 48,4%, що ще значно нижче 90%, типових для експертів-людей у своїх галузях.
Чому це важливо: більше, ніж просто бали
HLE – це не просто цифри. Він підкреслює критичний розрив між поточним ІІ та справжнім загальним інтелектом (AGI). У той час як ІІ досягає успіху в конкретних завданнях, йому все ще важко даються широкі, адаптовані знання, якими володіють люди. Цей тест – спосіб виміряти, наскільки ми близькі до машин, які можуть справді думати, розмірковувати та навчатися як люди.
Унікальність цього іспиту полягає в тому, що він вимагає, щоб питання були точними, однозначними, вирішуваними та недоступними для пошуку. Команда автоматично відхиляла будь-які питання, на які моделі могли відповісти правильно, гарантуючи, що в іспит включаються тільки складні матеріали.
Приклади суворості іспиту
Питання охоплюють широкий спектр, від маловідомих фактів, таких як «У грецькій міфології, хто був прадідом по материнській лінії Ясона?», до складних фізичних завдань, які потребують глибокого розуміння. Ця широта предметів відрізняє HLE від інших критеріїв, таких як набор даних Massive Multitask Language Understanding (MMLU), який в основному фокусується на програмуванні та математиці. Наприклад, Gemini 3 Deep Think показав 84,6% на бенчмарку ARC-AGI-2, але не зміг досягти 50% на HLE.
Вердикт: AGI ще немає
Автори дослідження наголошують, що високий бал на HLE автоматично не означає AGI. Досягнення експертного рівня продуктивності на питаннях, що перевіряються, — це лише одна частина головоломки. Справжній інтелект потребує автономних дослідницьких можливостей, творчого вирішення проблем та здатності застосовувати знання у нових ситуаціях. Як заявляє Мануель Шоттдорф, нейробіолог, який брав участь у проекті: «Хороша здача HLE – це необхідна, але недостатня умова, щоб сказати, що машини досягли справжнього інтелекту».
HLE є значним кроком у вимірі прогресу ІІ, але він також підкреслює, що ми ще далекі від машин, які дійсно можуть думати як люди. Пошук AGI триває, і такі критерії, як цей, матимуть вирішальне значення для відстеження того, наскільки близько ми до мети.

























