Home Ultime notizie e articoli Il test più duro dell’intelligenza artificiale: quanto sono vicine le macchine alla...

Ultime notizie e articoli

Il test più duro dell’intelligenza artificiale: quanto sono vicine le macchine alla conoscenza di livello umano?

28.02.2026

I ricercatori hanno svelato quello che chiamano “L’ultimo esame dell’umanità” (HLE), un nuovo benchmark progettato per valutare rigorosamente le capacità dei principali modelli di intelligenza artificiale (AI) di oggi. L’esame, sviluppato dal Center for AI Safety and Scale AI, non è solo un altro test di intelligenza artificiale; mira a determinare quanto le macchine siano vicine a eguagliare o superare le competenze umane in una vasta gamma di argomenti.

L’esame: pensato per superare l’intelligenza artificiale

Lanciato nel gennaio 2025, l’HLE contiene 2.500 domande che abbracciano oltre 100 discipline, esaminate da oltre 1.000 esperti in materia provenienti da 50 paesi. A differenza dei tipici benchmark di intelligenza artificiale che si basano su informazioni facilmente ricercabili, le domande HLE sono progettate per essere non ambigue ma non facilmente disponibili online. L’obiettivo: misurare la comprensione autentica, non solo la capacità di rigurgitare dati.

I primi test all’inizio del 2025 hanno mostrato scarsi risultati, con GPT-4o di OpenAI e Gemini 1.5 Pro di Google che non sono riusciti a superare l’8,3% di precisione. Tuttavia, i ricercatori prevedono che l’IA potrebbe superare la precisione del 50% entro la fine del 2025, dato il rapido ritmo di sviluppo. A febbraio 2026, Gemini 3 Deep Think di Google ha ottenuto il punteggio più alto con il 48,4%, ancora significativamente inferiore al 90% tipico degli esperti umani nei loro campi.

Perché è importante: oltre i semplici punteggi

L’HLE non è solo una questione di numeri. Evidenzia un divario critico tra l’attuale intelligenza artificiale e la vera intelligenza generale (AGI). Anche se l’intelligenza artificiale eccelle in compiti specifici, fatica ancora a gestire la conoscenza ampia e adattabile di cui dispongono gli esseri umani. Questo test è un modo per misurare quanto siamo vicini alle macchine che possono veramente pensare, ragionare e apprendere come le persone.

La struttura di questo esame è unica in quanto richiede che le domande siano precise, non ambigue, risolvibili e non ricercabili. Il team ha rifiutato automaticamente tutte le domande a cui i modelli potevano rispondere correttamente, assicurandosi che fosse incluso solo materiale veramente impegnativo.

Esempi di rigore dell’esame

Le domande stesse coprono un ampio spettro, da curiosità oscure come “Nella mitologia greca, chi era il bisnonno materno di Giasone?” a problemi fisici complessi che richiedono una comprensione avanzata. Questa ampiezza di argomenti distingue l’HLE da altri benchmark, come il set di dati Massive Multitask Language Understanding (MMLU), che si concentra fortemente sulla codifica e sulla matematica. Gemini 3 Deep Think, ad esempio, ha raggiunto l’84,6% sul benchmark ARC-AGI-2 ma non è riuscito a raggiungere il 50% sull’HLE.

Il verdetto: non ancora AGI

Gli autori dello studio sottolineano che un punteggio elevato nell’HLE non indica automaticamente AGI. Raggiungere prestazioni di livello esperto su domande verificabili è solo un pezzo del puzzle. La vera intelligenza richiede capacità di ricerca autonome, risoluzione creativa dei problemi e capacità di applicare la conoscenza in situazioni nuove. Come afferma Manuel Schottdorf, neuroscienziato coinvolto nel progetto: “Avere successo nell’HLE è un criterio necessario, ma non sufficiente per dire che le macchine hanno raggiunto la vera intelligenza”.

L’HLE rappresenta un passo significativo nella misurazione dei progressi dell’intelligenza artificiale, ma sottolinea anche che siamo ancora lontani da macchine che possano veramente pensare come gli esseri umani. La ricerca dell’AGI è in corso e benchmark come questo saranno cruciali per monitorare quanto ci avviciniamo.

Il test più duro dell’intelligenza artificiale: quanto sono vicine le macchine alla conoscenza di livello umano?

L’esame: pensato per superare l’intelligenza artificiale

Perché è importante: oltre i semplici punteggi

Esempi di rigore dell’esame

Il verdetto: non ancora AGI

Цікаве

Il “Progetto Ave Maria” verrà lanciato in 12 diversi formati teatrali

Gli scienziati monitorano per la prima volta l’inquinamento da detriti spaziali...

The Best Cheap Drones Under $500: A Comprehensive Guide

Raro allineamento planetario catturato in una splendida fotografia del Dorset

I pinguini imperatori affrontano una crisi poiché lo scioglimento del ghiaccio...

Le bocche delle zanzare possono essere stampate in 3D su scala...

Чому поширюється рак: вчені знайшли новий ключ до розгадки роботи клітинної...

I puma della Patagonia ora cacciano i pinguini mentre gli ecosistemi...

Як створити магнітне поле сильніше, ніж зірка, за допомогою лазера

Inversione del diabete in Nepal: la dieta tradizionale si mostra promettente