Naukowcy zaprezentowali tak zwany egzamin końcowy ludzkości (HLE), nowy test porównawczy zaprojektowany w celu rygorystycznej oceny możliwości obecnych modeli sztucznej inteligencji (AI). Egzamin, opracowany przez AI Security Center i Scale AI, to nie tylko kolejny test AI; ma na celu określenie, w jakim stopniu maszyny dorównują ludzkiej wiedzy lub przewyższają ją w szerokim zakresie dyscyplin.

Egzamin: Zaprojektowany, aby przełamać sztuczną inteligencję

Uruchomiony w styczniu 2025 r. HLE zawiera 2500 pytań obejmujących ponad 100 obszarów wiedzy, zweryfikowanych przez ponad 1000 ekspertów merytorycznych z 50 krajów. W przeciwieństwie do typowych testów sztucznej inteligencji, które opierają się na łatwo dostępnych informacjach, pytania HLE są zaprojektowane tak, aby były jednoznaczne, ale nie były natychmiast dostępne online. Cel: zmierzyć prawdziwe zrozumienie, a nie tylko zdolność do odtwarzania danych.

Pierwsze testy przeprowadzone na początku 2025 roku wykazały słabe wyniki: dokładność GPT-4o OpenAI i Gemini 1.5 Pro Google nie przekroczyła 8,3%. Naukowcy przewidują jednak, że ze względu na szybkie tempo rozwoju sztuczna inteligencja będzie w stanie przekroczyć 50% dokładności do końca 2025 r. W lutym 2026 r. Google Gemini 3 Deep Think uzyskał najwyższy wynik na poziomie 48,4%, wciąż znacznie poniżej 90% typowych dla ekspertów w swoich dziedzinach.

Dlaczego to ma znaczenie: więcej niż tylko punkty

HLE to coś więcej niż tylko liczby. Podkreśla krytyczną lukę między obecną sztuczną inteligencją a prawdziwą inteligencją ogólną (AGI). Chociaż sztuczna inteligencja przoduje w konkretnych zadaniach, nadal boryka się z szeroką, dającą się dostosować wiedzą, którą posiadają ludzie. Ten test pozwala zmierzyć, jak blisko jesteśmy maszyn, które naprawdę potrafią myśleć, rozumować i uczyć się jak ludzie.

Tym, co czyni ten egzamin wyjątkowym, jest to, że wymaga, aby pytania były precyzyjne, jednoznaczne, możliwe do rozwiązania i niemożliwe do przeszukiwania. Zespół automatycznie odrzucał wszelkie pytania, na które modelki potrafiły poprawnie odpowiedzieć, upewniając się, że na egzaminie uwzględniono tylko naprawdę trudny materiał.

Przykłady rygoru egzaminu

Pytania obejmują szeroki zakres, począwszy od mało znanych faktów, takich jak „Kto w mitologii greckiej był pradziadkiem Jazona ze strony matki?” do złożonych problemów fizycznych wymagających głębokiego zrozumienia. Taki zakres przedmiotów odróżnia HLE od innych kryteriów, takich jak zbiór danych Massive Multitask Language Understanding (MMLU), który koncentruje się głównie na programowaniu i matematyce. Na przykład Gemini 3 Deep Think uzyskał 84,6% w teście ARC-AGI-2, ale nie osiągnął 50% w HLE.

Werdykt: Nie ma jeszcze AGI

Autorzy badania podkreślają, że wysoki wynik w skali HLE nie oznacza automatycznie AGI. Osiągnięcie eksperckiego poziomu wydajności w przypadku sprawdzalnych pytań to tylko jeden element układanki. Prawdziwa inteligencja wymaga autonomicznych zdolności eksploracyjnych, kreatywnego rozwiązywania problemów i umiejętności stosowania wiedzy w nowych sytuacjach. Jak stwierdza Manuel Schottdorf, neurobiolog zaangażowany w projekt: „Dobre wyniki w HLE to warunek konieczny, ale niewystarczający, aby stwierdzić, że maszyny osiągnęły prawdziwą inteligencję”.

HLE stanowi znaczący krok w mierzeniu postępu sztucznej inteligencji, ale podkreśla również, że wciąż jesteśmy daleko od maszyn, które naprawdę potrafią myśleć jak ludzie. Poszukiwania AGI trwają, a takie kryteria będą miały kluczowe znaczenie dla śledzenia, jak blisko jesteśmy celu.