Найскладніший тест для ІІ: наскільки близькі машини до рівня знань?

28.02.2026

Дослідники представили те, що вони називають “Останнім іспитом людства” (HLE) – новий критерій, розроблений для суворої оцінки можливостей сучасних моделей штучного інтелекту (ІІ). Іспит, розроблений Центром безпеки ІІ та Scale AI, – це не просто ще один тест для ІІ; він спрямований на визначення того, наскільки близькі машини до відповідності чи переваги над людською експертизою у широкому спектрі дисциплін.

Іспит: створений, щоб зламати ІІ

Запущений у січні 2025 року, HLE містить 2500 питань, що охоплюють понад 100 областей знань, перевірених більш ніж 1000 експертами у своїй галузі з 50 країн. На відміну від типових тестів для ІІ, які покладаються на доступну інформацію, питання HLE розроблені таким чином, щоб бути однозначними, але не відразу ж доступними в інтернеті. Мета: виміряти справжнє розуміння, а чи не просто здатність до відтворення даних.

Перші тести на початку 2025 року показали погані результати: GPT-4o від OpenAI та Gemini 1.5 Pro від Google не змогли перевищити 8,3% точності. Проте дослідники прогнозують, що ІІ зможе перевищити 50% точності до кінця 2025 року з огляду на стрімкі темпи розвитку. Станом на лютий 2026 року Gemini 3 Deep Think від Google показав найвищий результат — 48,4%, що ще значно нижче 90%, типових для експертів-людей у своїх галузях.

Чому це важливо: більше, ніж просто бали

HLE – це не просто цифри. Він підкреслює критичний розрив між поточним ІІ та справжнім загальним інтелектом (AGI). У той час як ІІ досягає успіху в конкретних завданнях, йому все ще важко даються широкі, адаптовані знання, якими володіють люди. Цей тест – спосіб виміряти, наскільки ми близькі до машин, які можуть справді думати, розмірковувати та навчатися як люди.

Унікальність цього іспиту полягає в тому, що він вимагає, щоб питання були точними, однозначними, вирішуваними та недоступними для пошуку. Команда автоматично відхиляла будь-які питання, на які моделі могли відповісти правильно, гарантуючи, що в іспит включаються тільки складні матеріали.

Приклади суворості іспиту

Питання охоплюють широкий спектр, від маловідомих фактів, таких як «У грецькій міфології, хто був прадідом по материнській лінії Ясона?», до складних фізичних завдань, які потребують глибокого розуміння. Ця широта предметів відрізняє HLE від інших критеріїв, таких як набор даних Massive Multitask Language Understanding (MMLU), який в основному фокусується на програмуванні та математиці. Наприклад, Gemini 3 Deep Think показав 84,6% на бенчмарку ARC-AGI-2, але не зміг досягти 50% на HLE.

Вердикт: AGI ще немає

Автори дослідження наголошують, що високий бал на HLE автоматично не означає AGI. Досягнення експертного рівня продуктивності на питаннях, що перевіряються, — це лише одна частина головоломки. Справжній інтелект потребує автономних дослідницьких можливостей, творчого вирішення проблем та здатності застосовувати знання у нових ситуаціях. Як заявляє Мануель Шоттдорф, нейробіолог, який брав участь у проекті: «Хороша здача HLE – це необхідна, але недостатня умова, щоб сказати, що машини досягли справжнього інтелекту».

HLE є значним кроком у вимірі прогресу ІІ, але він також підкреслює, що ми ще далекі від машин, які дійсно можуть думати як люди. Пошук AGI триває, і такі критерії, як цей, матимуть вирішальне значення для відстеження того, наскільки близько ми до мети.

Найскладніший тест для ІІ: наскільки близькі машини до рівня знань?

Іспит: створений, щоб зламати ІІ

Чому це важливо: більше, ніж просто бали

Приклади суворості іспиту

Вердикт: AGI ще немає

Цікаве

Вчені відстежують забруднення космічним сміттям в режимі реального часу

Уламки Ракети SpaceX Безпосередньо пов’язані із забрудненням літієм в атмосфері

Розширення Пластикової Промисловості: Нафтові Компанії Збільшують Виробництво, Незважаючи на Забруднення

Клітини людського мозку навчилися грати в Doom: прорив у біологічних обчисленнях

Квантова Невизначеність, Зроблена Звучною: «Лімінали» П’єра

Оскільки SpaceX відстає від графіка, NASA буде шукати нові ідеї для...

Космический Глаз: Ураган “Милтон” в 4K с Небес МКС

Поява тренду «низький Т» у соцмережах: лікарі б’ють на сполох про...

Обгорілий шматок секретної китайської ракети знайшли ще тліючим в австралійській глибинці

Альберт пірпойнт-останній кат імперії