Forscher haben das vorgestellt, was sie „Humanity’s Last Exam“ (HLE) nennen – einen neuen Benchmark, der die Fähigkeiten der heute führenden Modelle der künstlichen Intelligenz (KI) streng bewerten soll. Die vom Center for AI Safety and Scale AI entwickelte Prüfung ist nicht nur ein weiterer KI-Test; Ziel ist es, festzustellen, wie nah Maschinen an menschlichem Fachwissen in einem breiten Spektrum von Themen herankommen oder es übertreffen.
Die Prüfung: Entwickelt, um die KI zu brechen
Das im Januar 2025 gestartete HLE enthält 2.500 Fragen aus über 100 Disziplinen, die von über 1.000 Fachexperten aus 50 Ländern geprüft wurden. Im Gegensatz zu typischen KI-Benchmarks, die auf leicht durchsuchbaren Informationen basieren, sind die HLE-Fragen so konzipiert, dass sie eindeutig, aber nicht ohne weiteres online verfügbar sind. Das Ziel: echtes Verständnis zu messen, nicht nur die Fähigkeit, Daten wiederzugeben.
Erste Tests Anfang 2025 zeigten schlechte Ergebnisse, wobei OpenAIs GPT-4o und Googles Gemini 1.5 Pro die Genauigkeit von 8,3 % nicht übertrafen. Forscher gehen jedoch davon aus, dass die Genauigkeit der KI angesichts des rasanten Entwicklungstempos bis Ende 2025 die 50-Prozent-Genauigkeit überschreiten könnte. Im Februar 2026 erreichte Googles Gemini 3 Deep Think mit 48,4 % die höchste Punktzahl, was immer noch deutlich unter den 90 % liegt, die für menschliche Experten auf ihrem Gebiet typisch sind.
Warum das wichtig ist: Mehr als nur Punkte
Beim HLE geht es nicht nur um Zahlen. Es zeigt eine kritische Lücke zwischen aktueller KI und echter allgemeiner Intelligenz (AGI). Während KI bei bestimmten Aufgaben hervorragend ist, hat sie immer noch Probleme mit dem breiten, anpassungsfähigen Wissen, über das Menschen verfügen. Mit diesem Test können wir messen, wie nah wir an Maschinen sind, die wirklich wie Menschen denken, argumentieren und lernen können.
Das Design dieser Prüfung ist insofern einzigartig, als die Fragen präzise, eindeutig, lösbar und nicht durchsuchbar sein müssen. Das Team lehnte automatisch alle Fragen ab, die die Modelle richtig beantworten konnten, und stellte so sicher, dass nur wirklich anspruchsvolles Material enthalten war.
Beispiele für die Strenge der Prüfung
Die Fragen selbst decken ein breites Spektrum ab, von obskuren Kleinigkeiten wie „Wer war in der griechischen Mythologie Jasons Urgroßvater mütterlicherseits?“ zu komplexen physikalischen Problemen, die ein fortgeschrittenes Verständnis erfordern. Diese Breite der Themen unterscheidet den HLE von anderen Benchmarks, wie dem Massive Multitask Language Understanding (MMLU)-Datensatz, der sich stark auf Codierung und Mathematik konzentriert. Gemini 3 Deep Think erreichte beispielsweise 84,6 % beim ARC-AGI-2-Benchmark, schaffte es jedoch nicht, 50 % beim HLE zu erreichen.
Das Urteil: Noch nicht AGI
Die Autoren der Studie betonen, dass ein hoher HLE-Wert nicht automatisch AGI bedeutet. Bei überprüfbaren Fragen eine Leistung auf Expertenniveau zu erzielen, ist nur ein Teil des Puzzles. Echte Intelligenz erfordert autonome Forschungsfähigkeiten, kreative Problemlösung und die Fähigkeit, Wissen in neuartigen Situationen anzuwenden. Wie Manuel Schottdorf, ein an dem Projekt beteiligter Neurowissenschaftler, feststellt: „Eine gute Leistung bei HLE ist ein notwendiges, aber kein ausreichendes Kriterium, um zu sagen, dass Maschinen wahre Intelligenz erreicht haben.“
Der HLE stellt einen bedeutenden Schritt bei der Messung des KI-Fortschritts dar, unterstreicht aber auch, dass wir noch weit von Maschinen entfernt sind, die wirklich wie Menschen denken können. Das Streben nach AGI geht weiter und Benchmarks wie dieser werden entscheidend sein, um zu verfolgen, wie nahe wir dem kommen.























