Researchers have unveiled what they call Humanity’s Final Exam (HLE), a new benchmark designed to rigorously evaluate the capabilities of current artificial intelligence (AI) models. Zkouška, kterou vyvinulo centrum AI ​​Security Center a Scale AI, není jen další test AI; jeho cílem je určit, jak blízko se stroje přibližují nebo převyšují lidské znalosti v celé řadě oborů.

Zkouška: Navržena tak, aby prolomila AI

HLE, která byla spuštěna v lednu 2025, obsahuje 2 500 otázek pokrývajících více než 100 oblastí znalostí a přezkoumává je více než 1 000 odborníků na dané téma z 50 zemí. Na rozdíl od typických testů AI, které se spoléhají na snadno dostupné informace, jsou otázky HLE navrženy tak, aby byly jednoznačné, ale nebyly okamžitě dostupné online. Cíl: měřit skutečné porozumění, nejen schopnost reprodukovat data.

První testy na začátku roku 2025 ukázaly špatné výsledky: GPT-4o OpenAI a Gemini 1.5 Pro od Googlu nedokázaly překročit přesnost 8,3 %. Vědci však předpokládají, že AI bude schopna do konce roku 2025 překonat 50% přesnost, vzhledem k rychlému tempu vývoje. V únoru 2026 dosáhl nejvyššího skóre Gemini 3 Deep Think od Googlu, a to 48,4 %, což je stále hluboko pod 90 % typických pro lidské experty ve svých oborech.

Proč na tom záleží: Více než jen body

HLE je více než jen čísla. Zdůrazňuje kritickou propast mezi současnou umělou inteligencí a skutečnou všeobecnou inteligencí (AGI). I když umělá inteligence vyniká v konkrétních úkolech, stále se potýká s širokými a adaptabilními znalostmi, které lidé mají. Tento test je způsob, jak změřit, jak blízko jsme strojům, které mohou skutečně myslet, uvažovat a učit se jako lidé.

Co dělá tuto zkoušku jedinečnou, je to, že vyžaduje, aby otázky byly přesné, jednoznačné, řešitelné a nehledatelné. Tým automaticky odmítl všechny otázky, na které modelky dokázaly správně odpovědět, a zajistil tak, že do zkoušky byla zařazena pouze skutečně obtížná látka.

Příklady přísnosti zkoušek

Otázky pokrývají širokou škálu, od málo známých faktů, jako například „Kdo byl v řecké mytologii pradědeček Jasona z matčiny strany?“ ke složitým fyzikálním problémům, které vyžadují hluboké porozumění. Tato šíře předmětů odlišuje HLE od jiných kritérií, jako je datový soubor Massive Multitask Language Understanding (MMLU), který se primárně zaměřuje na programování a matematiku. Například Gemini 3 Deep Think dosáhl 84,6 % na benchmarku ARC-AGI-2, ale nedokázal dosáhnout 50 % na HLE.

Verdikt: Zatím žádné AGI

Autoři studie zdůrazňují, že vysoké skóre na HLE neznamená automaticky AGI. Dosažení odborné úrovně výkonu u testovatelných otázek je jen jedním kouskem skládačky. Skutečná inteligence vyžaduje schopnosti autonomního průzkumu, kreativní řešení problémů a schopnost aplikovat znalosti na nové situace. Jak říká Manuel Schottdorf, neurovědec zapojený do projektu: „Dobrý výkon v HLE je nezbytnou, ale ne postačující podmínkou, abychom mohli říci, že stroje dosáhly skutečné inteligence.“

HLE představuje významný krok v měření pokroku umělé inteligence, ale také zdůrazňuje, že jsme stále ještě daleko od strojů, které mohou skutečně myslet jako lidé. Hledání AGI pokračuje a kritéria, jako je toto, budou zásadní pro sledování toho, jak blízko jsme k cíli.