Os investigadores revelaram o que chamam de “Último Exame da Humanidade” (HLE) – um novo benchmark concebido para avaliar rigorosamente as capacidades dos principais modelos de inteligência artificial (IA) da atualidade. O exame, desenvolvido pelo Center for AI Safety and Scale AI, não é apenas mais um teste de IA; seu objetivo é determinar o quão perto as máquinas estão de igualar ou exceder a experiência humana em uma vasta gama de assuntos.
O exame: construído para quebrar a IA
Lançado em janeiro de 2025, o HLE contém 2.500 questões abrangendo mais de 100 disciplinas, avaliadas por mais de 1.000 especialistas no assunto de 50 países. Ao contrário dos benchmarks típicos de IA que dependem de informações facilmente pesquisáveis, as perguntas HLE são projetadas para serem inequívocas, mas não prontamente disponíveis on-line. O objetivo: medir a compreensão genuína, não apenas a capacidade de regurgitar dados.
Os primeiros testes no início de 2025 mostraram resultados ruins, com o GPT-4o da OpenAI e o Gemini 1.5 Pro do Google não conseguindo exceder 8,3% de precisão. No entanto, os investigadores prevêem que a IA poderá ultrapassar os 50% de precisão até ao final de 2025, dado o rápido ritmo de desenvolvimento. Em fevereiro de 2026, o Gemini 3 Deep Think do Google alcançou a pontuação mais alta de 48,4%, ainda significativamente inferior aos 90% típicos de especialistas humanos em suas áreas.
Por que isso é importante: além das pontuações
O HLE não trata apenas de números. Ele destaca uma lacuna crítica entre a IA atual e a verdadeira inteligência geral (AGI). Embora a IA seja excelente em tarefas específicas, ainda enfrenta dificuldades com o conhecimento amplo e adaptável que os humanos possuem. Este teste é uma forma de medir o quão próximos estamos de máquinas que podem genuinamente pensar, raciocinar e aprender como as pessoas.
O design deste exame é único porque exige que as perguntas sejam precisas, inequívocas, solucionáveis e não pesquisáveis. A equipe rejeitou automaticamente quaisquer perguntas que os modelos pudessem responder corretamente, garantindo que apenas materiais verdadeiramente desafiadores fossem incluídos.
Exemplos de Rigor do Exame
As próprias perguntas cobrem um amplo espectro, desde curiosidades obscuras como “Na mitologia grega, quem era o bisavô materno de Jasão?” para problemas complexos de física que exigem compreensão avançada. Esta amplitude de assuntos distingue o HLE de outros benchmarks, como o conjunto de dados Massive Multitask Language Understanding (MMLU), que se concentra fortemente em codificação e matemática. O Gemini 3 Deep Think, por exemplo, atingiu 84,6% no benchmark ARC-AGI-2, mas não conseguiu atingir 50% no HLE.
O veredicto: ainda não é AGI
Os autores do estudo enfatizam que uma pontuação alta no HLE não significa automaticamente AGI. Alcançar um desempenho de nível especializado em questões verificáveis é apenas uma peça do quebra-cabeça. A verdadeira inteligência requer capacidades de investigação autónomas, resolução criativa de problemas e capacidade de aplicar conhecimentos em situações novas. Como afirma Manuel Schottdorf, neurocientista envolvido no projeto: “Ter um bom desempenho no HLE é um critério necessário, mas não suficiente, para dizer que as máquinas alcançaram a verdadeira inteligência”.
O HLE representa um passo significativo na medição do progresso da IA, mas também sublinha que ainda estamos longe de máquinas que possam realmente pensar como humanos. A busca pela AGI é contínua e parâmetros de referência como este serão cruciais para monitorizar o quão perto chegaremos.
