Der härteste Test für KI: Wie nah sind Maschinen am Wissen auf menschlicher Ebene?

28.02.2026

Forscher haben das vorgestellt, was sie „Humanity’s Last Exam“ (HLE) nennen – einen neuen Benchmark, der die Fähigkeiten der heute führenden Modelle der künstlichen Intelligenz (KI) streng bewerten soll. Die vom Center for AI Safety and Scale AI entwickelte Prüfung ist nicht nur ein weiterer KI-Test; Ziel ist es, festzustellen, wie nah Maschinen an menschlichem Fachwissen in einem breiten Spektrum von Themen herankommen oder es übertreffen.

Die Prüfung: Entwickelt, um die KI zu brechen

Das im Januar 2025 gestartete HLE enthält 2.500 Fragen aus über 100 Disziplinen, die von über 1.000 Fachexperten aus 50 Ländern geprüft wurden. Im Gegensatz zu typischen KI-Benchmarks, die auf leicht durchsuchbaren Informationen basieren, sind die HLE-Fragen so konzipiert, dass sie eindeutig, aber nicht ohne weiteres online verfügbar sind. Das Ziel: echtes Verständnis zu messen, nicht nur die Fähigkeit, Daten wiederzugeben.

Erste Tests Anfang 2025 zeigten schlechte Ergebnisse, wobei OpenAIs GPT-4o und Googles Gemini 1.5 Pro die Genauigkeit von 8,3 % nicht übertrafen. Forscher gehen jedoch davon aus, dass die Genauigkeit der KI angesichts des rasanten Entwicklungstempos bis Ende 2025 die 50-Prozent-Genauigkeit überschreiten könnte. Im Februar 2026 erreichte Googles Gemini 3 Deep Think mit 48,4 % die höchste Punktzahl, was immer noch deutlich unter den 90 % liegt, die für menschliche Experten auf ihrem Gebiet typisch sind.

Warum das wichtig ist: Mehr als nur Punkte

Beim HLE geht es nicht nur um Zahlen. Es zeigt eine kritische Lücke zwischen aktueller KI und echter allgemeiner Intelligenz (AGI). Während KI bei bestimmten Aufgaben hervorragend ist, hat sie immer noch Probleme mit dem breiten, anpassungsfähigen Wissen, über das Menschen verfügen. Mit diesem Test können wir messen, wie nah wir an Maschinen sind, die wirklich wie Menschen denken, argumentieren und lernen können.

Das Design dieser Prüfung ist insofern einzigartig, als die Fragen präzise, eindeutig, lösbar und nicht durchsuchbar sein müssen. Das Team lehnte automatisch alle Fragen ab, die die Modelle richtig beantworten konnten, und stellte so sicher, dass nur wirklich anspruchsvolles Material enthalten war.

Beispiele für die Strenge der Prüfung

Die Fragen selbst decken ein breites Spektrum ab, von obskuren Kleinigkeiten wie „Wer war in der griechischen Mythologie Jasons Urgroßvater mütterlicherseits?“ zu komplexen physikalischen Problemen, die ein fortgeschrittenes Verständnis erfordern. Diese Breite der Themen unterscheidet den HLE von anderen Benchmarks, wie dem Massive Multitask Language Understanding (MMLU)-Datensatz, der sich stark auf Codierung und Mathematik konzentriert. Gemini 3 Deep Think erreichte beispielsweise 84,6 % beim ARC-AGI-2-Benchmark, schaffte es jedoch nicht, 50 % beim HLE zu erreichen.

Das Urteil: Noch nicht AGI

Die Autoren der Studie betonen, dass ein hoher HLE-Wert nicht automatisch AGI bedeutet. Bei überprüfbaren Fragen eine Leistung auf Expertenniveau zu erzielen, ist nur ein Teil des Puzzles. Echte Intelligenz erfordert autonome Forschungsfähigkeiten, kreative Problemlösung und die Fähigkeit, Wissen in neuartigen Situationen anzuwenden. Wie Manuel Schottdorf, ein an dem Projekt beteiligter Neurowissenschaftler, feststellt: „Eine gute Leistung bei HLE ist ein notwendiges, aber kein ausreichendes Kriterium, um zu sagen, dass Maschinen wahre Intelligenz erreicht haben.“

Der HLE stellt einen bedeutenden Schritt bei der Messung des KI-Fortschritts dar, unterstreicht aber auch, dass wir noch weit von Maschinen entfernt sind, die wirklich wie Menschen denken können. Das Streben nach AGI geht weiter und Benchmarks wie dieser werden entscheidend sein, um zu verfolgen, wie nahe wir dem kommen.

Der härteste Test für KI: Wie nah sind Maschinen am Wissen auf menschlicher Ebene?

Die Prüfung: Entwickelt, um die KI zu brechen

Warum das wichtig ist: Mehr als nur Punkte

Beispiele für die Strenge der Prüfung

Das Urteil: Noch nicht AGI

Цікаве

Wissenschaftler verfolgen erstmals die Verschmutzung durch Weltraummüll in Echtzeit

Menschliche Gehirnzellen lernen, Doom zu spielen: Ein Sprung in Richtung biologisches...

Expansion der Kunststoffindustrie: Unternehmen für fossile Brennstoffe steigern ihre Produktion trotz...

„Project Hail Mary“ wird in 12 verschiedenen Theaterformaten starten

The Best Cheap Drones Under $500: A Comprehensive Guide

2026-Mission zum Phobos könnte die Ursprünge des Marsmondes enthüllen

The Deadly Drink Off: Ein verdrehtes Logikrätsel

Цифрові посвідчення особи можуть стати катастрофою у Великобританії та за її...

„Project Hail Mary“ wird in 12 verschiedenen Theaterformaten starten

Сповіщення зі смартфона можуть відволікати вас більше, ніж ви думаєте