Le test le plus difficile de l’IA : à quel point les machines sont-elles proches des connaissances au niveau humain ?

28.02.2026

Les chercheurs ont dévoilé ce qu’ils appellent le « Dernier examen de l’humanité » (HLE) – une nouvelle référence conçue pour évaluer rigoureusement les capacités des principaux modèles d’intelligence artificielle (IA) actuels. L’examen, développé par le Center for AI Safety et Scale AI, n’est pas simplement un autre test d’IA ; il vise à déterminer dans quelle mesure les machines sont proches d’égaler ou de dépasser l’expertise humaine dans un large éventail de sujets.

L’examen : conçu pour briser l’IA

Lancé en janvier 2025, le HLE contient 2 500 questions couvrant plus de 100 disciplines, examinées par plus de 1 000 experts en la matière de 50 pays. Contrairement aux benchmarks typiques de l’IA qui s’appuient sur des informations facilement consultables, les questions HLE sont conçues pour être sans ambiguïté mais pas facilement disponibles en ligne. L’objectif : mesurer une véritable compréhension, et pas seulement la capacité à régurgiter des données.

Les premiers tests effectués début 2025 ont montré des résultats médiocres, le GPT-4o d’OpenAI et le Gemini 1.5 Pro de Google n’ayant pas réussi à dépasser une précision de 8,3 %. Cependant, les chercheurs prédisent que l’IA pourrait dépasser les 50 % de précision d’ici la fin 2025, compte tenu du rythme rapide de son développement. En février 2026, Gemini 3 Deep Think de Google a obtenu le score le plus élevé, soit 48,4 %, ce qui reste nettement inférieur aux 90 % typiques des experts humains dans leur domaine.

Pourquoi c’est important : au-delà des simples scores

Le HLE n’est pas seulement une question de chiffres. Cela met en évidence un écart critique entre l’IA actuelle et la véritable intelligence générale (AGI). Même si l’IA excelle dans des tâches spécifiques, elle a encore du mal à maîtriser les connaissances vastes et adaptables que possèdent les humains. Ce test est un moyen de mesurer à quel point nous sommes proches des machines capables de véritablement penser, raisonner et apprendre comme les humains.

La conception de cet examen est unique dans la mesure où elle exige que les questions soient précises, sans ambiguïté, résolubles et non consultables. L’équipe a automatiquement rejeté toutes les questions auxquelles les modèles pouvaient répondre correctement, s’assurant que seuls les éléments vraiment difficiles étaient inclus.

Exemples de rigueur de l’examen

Les questions elles-mêmes couvrent un large spectre, depuis des anecdotes obscures comme « Dans la mythologie grecque, qui était l’arrière-grand-père maternel de Jason ? » à des problèmes de physique complexes nécessitant une compréhension avancée. Cet éventail de sujets distingue le HLE d’autres références, comme l’ensemble de données Massive Multitask Language Understanding (MMLU), qui se concentre fortement sur le codage et les mathématiques. Gemini 3 Deep Think, par exemple, a atteint 84,6 % sur le benchmark ARC-AGI-2 mais n’a pas réussi à atteindre 50 % sur le HLE.

Le verdict : pas encore AGI

Les auteurs de l’étude soulignent qu’un score élevé au HLE ne signifie pas automatiquement AGI. Atteindre des performances de niveau expert sur des questions vérifiables n’est qu’une pièce du puzzle. La véritable intelligence nécessite des capacités de recherche autonomes, une résolution créative de problèmes et la capacité d’appliquer les connaissances dans des situations nouvelles. Comme le déclare Manuel Schottdorf, neuroscientifique impliqué dans le projet : « Une bonne réussite en HLE est un critère nécessaire, mais pas suffisant, pour dire que les machines ont atteint la véritable intelligence. »

Le HLE représente une étape importante dans la mesure des progrès de l’IA, mais il souligne également que nous sommes encore loin des machines capables de véritablement penser comme les humains. La recherche de l’AGI est en cours, et des références comme celle-ci seront cruciales pour suivre à quel point nous nous en rapprochons.

Le test le plus difficile de l’IA : à quel point les machines sont-elles proches des connaissances au niveau humain ?

L’examen : conçu pour briser l’IA

Pourquoi c’est important : au-delà des simples scores

Exemples de rigueur de l’examen

Le verdict : pas encore AGI

Цікаве

Galaxie presque invisible découverte grâce à une anomalie d’amas d’étoiles

Des reliques humaines anciennes en Chine repoussent la chronologie de la...

Les manchots empereurs sont confrontés à une crise alors que la...

Une technologie révolutionnaire récupère l’eau de l’air, offrant une solution à...

Expansion de l’industrie du plastique : les entreprises de combustibles fossiles...

Les découvertes scientifiques record de 2025

L’histoire inédite des mains humaines : comment la dextérité a façonné notre...

У літніх котів з деменцією можуть бути ознаки хвороби Альцгеймера

Містам загрожують сильні повені. Чи можемо ми перетворити їх на губки?

Les négociations de l’ONU sur le climat se terminent par une...