Onderzoekers hebben wat zij ‘Humanity’s Last Exam’ (HLE) noemen onthuld – een nieuwe benchmark die is ontworpen om de mogelijkheden van de huidige toonaangevende modellen voor kunstmatige intelligentie (AI) rigoureus te beoordelen. Het examen, ontwikkeld door het Center for AI Safety and Scale AI, is niet zomaar een AI-test; het doel is om te bepalen hoe dicht machines zijn bij het evenaren of overtreffen van menselijke expertise over een breed scala aan onderwerpen.
Het examen: gebouwd om AI te doorbreken
De HLE, gelanceerd in januari 2025, bevat 2.500 vragen uit meer dan 100 disciplines, beoordeeld door meer dan 1.000 vakdeskundigen uit 50 landen. In tegenstelling tot typische AI-benchmarks die gebaseerd zijn op gemakkelijk doorzoekbare informatie, zijn de HLE-vragen ontworpen om ondubbelzinnig maar niet direct online beschikbaar te zijn. Het doel: echt begrip meten, niet alleen het vermogen om gegevens opnieuw uit te braken.
Vroege tests begin 2025 lieten slechte resultaten zien, waarbij OpenAI’s GPT-4o en Google’s Gemini 1.5 Pro de nauwkeurigheid van 8,3% niet overschreden. Onderzoekers voorspellen echter dat AI tegen eind 2025 de nauwkeurigheid van 50% zou kunnen overtreffen, gezien het snelle tempo van de ontwikkeling. Vanaf februari 2026 behaalde Google’s Gemini 3 Deep Think de hoogste score met 48,4%, nog steeds aanzienlijk lager dan de 90% die typisch is voor menselijke experts in hun vakgebied.
Waarom dit belangrijk is: meer dan alleen scores
De HLE gaat niet alleen over cijfers. Het benadrukt een cruciale kloof tussen de huidige AI en echte algemene intelligentie (AGI). Hoewel AI uitblinkt in specifieke taken, worstelt het nog steeds met de brede, aanpasbare kennis die mensen bezitten. Deze test is een manier om te meten hoe dicht we bij machines staan die echt kunnen denken, redeneren en leren als mensen.
Het ontwerp van dit examen is uniek omdat het vereist dat de vragen nauwkeurig, ondubbelzinnig, oplosbaar en niet-doorzoekbaar zijn. Het team verwierp automatisch alle vragen die de modellen correct konden beantwoorden, zodat alleen echt uitdagend materiaal werd opgenomen.
Voorbeelden van de strengheid van het examen
De vragen zelf bestrijken een breed spectrum, van obscure trivia als “Wie was in de Griekse mythologie Jasons overgrootvader van moederskant?” tot complexe natuurkundige problemen die een geavanceerd begrip vereisen. Deze breedte van onderwerpen onderscheidt de HLE van andere benchmarks, zoals de Massive Multitask Language Understanding (MMLU) dataset, die sterk gericht is op coderen en wiskunde. Gemini 3 Deep Think behaalde bijvoorbeeld 84,6% op de ARC-AGI-2-benchmark, maar slaagde er niet in om 50% te bereiken op de HLE.
Het oordeel: nog geen AGI
De auteurs van het onderzoek benadrukken dat een hoge score op de HLE niet automatisch duidt op AGI. Het bereiken van prestaties op expertniveau op verifieerbare vragen is slechts een stukje van de puzzel. Echte intelligentie vereist autonome onderzoekscapaciteiten, creatieve probleemoplossing en het vermogen om kennis in nieuwe situaties toe te passen. Zoals Manuel Schottdorf, een neurowetenschapper die betrokken is bij het project, stelt: “Goed presteren op HLE is een noodzakelijk, maar niet voldoende criterium om te zeggen dat machines ware intelligentie hebben bereikt.”
De HLE vertegenwoordigt een belangrijke stap in het meten van de vooruitgang van AI, maar onderstreept ook dat we nog steeds ver verwijderd zijn van machines die echt kunnen denken als mensen. Het streven naar AGI is aan de gang, en benchmarks als deze zullen van cruciaal belang zijn om te volgen hoe dichtbij we komen.
