I ricercatori hanno svelato quello che chiamano “L’ultimo esame dell’umanità” (HLE), un nuovo benchmark progettato per valutare rigorosamente le capacità dei principali modelli di intelligenza artificiale (AI) di oggi. L’esame, sviluppato dal Center for AI Safety and Scale AI, non è solo un altro test di intelligenza artificiale; mira a determinare quanto le macchine siano vicine a eguagliare o superare le competenze umane in una vasta gamma di argomenti.

L’esame: pensato per superare l’intelligenza artificiale

Lanciato nel gennaio 2025, l’HLE contiene 2.500 domande che abbracciano oltre 100 discipline, esaminate da oltre 1.000 esperti in materia provenienti da 50 paesi. A differenza dei tipici benchmark di intelligenza artificiale che si basano su informazioni facilmente ricercabili, le domande HLE sono progettate per essere non ambigue ma non facilmente disponibili online. L’obiettivo: misurare la comprensione autentica, non solo la capacità di rigurgitare dati.

I primi test all’inizio del 2025 hanno mostrato scarsi risultati, con GPT-4o di OpenAI e Gemini 1.5 Pro di Google che non sono riusciti a superare l’8,3% di precisione. Tuttavia, i ricercatori prevedono che l’IA potrebbe superare la precisione del 50% entro la fine del 2025, dato il rapido ritmo di sviluppo. A febbraio 2026, Gemini 3 Deep Think di Google ha ottenuto il punteggio più alto con il 48,4%, ancora significativamente inferiore al 90% tipico degli esperti umani nei loro campi.

Perché è importante: oltre i semplici punteggi

L’HLE non è solo una questione di numeri. Evidenzia un divario critico tra l’attuale intelligenza artificiale e la vera intelligenza generale (AGI). Anche se l’intelligenza artificiale eccelle in compiti specifici, fatica ancora a gestire la conoscenza ampia e adattabile di cui dispongono gli esseri umani. Questo test è un modo per misurare quanto siamo vicini alle macchine che possono veramente pensare, ragionare e apprendere come le persone.

La struttura di questo esame è unica in quanto richiede che le domande siano precise, non ambigue, risolvibili e non ricercabili. Il team ha rifiutato automaticamente tutte le domande a cui i modelli potevano rispondere correttamente, assicurandosi che fosse incluso solo materiale veramente impegnativo.

Esempi di rigore dell’esame

Le domande stesse coprono un ampio spettro, da curiosità oscure come “Nella mitologia greca, chi era il bisnonno materno di Giasone?” a problemi fisici complessi che richiedono una comprensione avanzata. Questa ampiezza di argomenti distingue l’HLE da altri benchmark, come il set di dati Massive Multitask Language Understanding (MMLU), che si concentra fortemente sulla codifica e sulla matematica. Gemini 3 Deep Think, ad esempio, ha raggiunto l’84,6% sul benchmark ARC-AGI-2 ma non è riuscito a raggiungere il 50% sull’HLE.

Il verdetto: non ancora AGI

Gli autori dello studio sottolineano che un punteggio elevato nell’HLE non indica automaticamente AGI. Raggiungere prestazioni di livello esperto su domande verificabili è solo un pezzo del puzzle. La vera intelligenza richiede capacità di ricerca autonome, risoluzione creativa dei problemi e capacità di applicare la conoscenza in situazioni nuove. Come afferma Manuel Schottdorf, neuroscienziato coinvolto nel progetto: “Avere successo nell’HLE è un criterio necessario, ma non sufficiente per dire che le macchine hanno raggiunto la vera intelligenza”.

L’HLE rappresenta un passo significativo nella misurazione dei progressi dell’intelligenza artificiale, ma sottolinea anche che siamo ancora lontani da macchine che possano veramente pensare come gli esseri umani. La ricerca dell’AGI è in corso e benchmark come questo saranno cruciali per monitorare quanto ci avviciniamo.