Les chercheurs ont dévoilé ce qu’ils appellent le « Dernier examen de l’humanité » (HLE) – une nouvelle référence conçue pour évaluer rigoureusement les capacités des principaux modèles d’intelligence artificielle (IA) actuels. L’examen, développé par le Center for AI Safety et Scale AI, n’est pas simplement un autre test d’IA ; il vise à déterminer dans quelle mesure les machines sont proches d’égaler ou de dépasser l’expertise humaine dans un large éventail de sujets.
L’examen : conçu pour briser l’IA
Lancé en janvier 2025, le HLE contient 2 500 questions couvrant plus de 100 disciplines, examinées par plus de 1 000 experts en la matière de 50 pays. Contrairement aux benchmarks typiques de l’IA qui s’appuient sur des informations facilement consultables, les questions HLE sont conçues pour être sans ambiguïté mais pas facilement disponibles en ligne. L’objectif : mesurer une véritable compréhension, et pas seulement la capacité à régurgiter des données.
Les premiers tests effectués début 2025 ont montré des résultats médiocres, le GPT-4o d’OpenAI et le Gemini 1.5 Pro de Google n’ayant pas réussi à dépasser une précision de 8,3 %. Cependant, les chercheurs prédisent que l’IA pourrait dépasser les 50 % de précision d’ici la fin 2025, compte tenu du rythme rapide de son développement. En février 2026, Gemini 3 Deep Think de Google a obtenu le score le plus élevé, soit 48,4 %, ce qui reste nettement inférieur aux 90 % typiques des experts humains dans leur domaine.
Pourquoi c’est important : au-delà des simples scores
Le HLE n’est pas seulement une question de chiffres. Cela met en évidence un écart critique entre l’IA actuelle et la véritable intelligence générale (AGI). Même si l’IA excelle dans des tâches spécifiques, elle a encore du mal à maîtriser les connaissances vastes et adaptables que possèdent les humains. Ce test est un moyen de mesurer à quel point nous sommes proches des machines capables de véritablement penser, raisonner et apprendre comme les humains.
La conception de cet examen est unique dans la mesure où elle exige que les questions soient précises, sans ambiguïté, résolubles et non consultables. L’équipe a automatiquement rejeté toutes les questions auxquelles les modèles pouvaient répondre correctement, s’assurant que seuls les éléments vraiment difficiles étaient inclus.
Exemples de rigueur de l’examen
Les questions elles-mêmes couvrent un large spectre, depuis des anecdotes obscures comme « Dans la mythologie grecque, qui était l’arrière-grand-père maternel de Jason ? » à des problèmes de physique complexes nécessitant une compréhension avancée. Cet éventail de sujets distingue le HLE d’autres références, comme l’ensemble de données Massive Multitask Language Understanding (MMLU), qui se concentre fortement sur le codage et les mathématiques. Gemini 3 Deep Think, par exemple, a atteint 84,6 % sur le benchmark ARC-AGI-2 mais n’a pas réussi à atteindre 50 % sur le HLE.
Le verdict : pas encore AGI
Les auteurs de l’étude soulignent qu’un score élevé au HLE ne signifie pas automatiquement AGI. Atteindre des performances de niveau expert sur des questions vérifiables n’est qu’une pièce du puzzle. La véritable intelligence nécessite des capacités de recherche autonomes, une résolution créative de problèmes et la capacité d’appliquer les connaissances dans des situations nouvelles. Comme le déclare Manuel Schottdorf, neuroscientifique impliqué dans le projet : « Une bonne réussite en HLE est un critère nécessaire, mais pas suffisant, pour dire que les machines ont atteint la véritable intelligence. »
Le HLE représente une étape importante dans la mesure des progrès de l’IA, mais il souligne également que nous sommes encore loin des machines capables de véritablement penser comme les humains. La recherche de l’AGI est en cours, et des références comme celle-ci seront cruciales pour suivre à quel point nous nous en rapprochons.

























