Los investigadores han presentado lo que llaman el “Último examen de la humanidad” (HLE), un nuevo punto de referencia diseñado para evaluar rigurosamente las capacidades de los principales modelos de inteligencia artificial (IA) de la actualidad. El examen, desarrollado por el Centro para la seguridad de la IA y la escala de IA, no es simplemente otra prueba de IA; Su objetivo es determinar qué tan cerca están las máquinas de igualar o superar la experiencia humana en una amplia gama de temas.
El examen: creado para romper la IA
Lanzado en enero de 2025, el HLE contiene 2500 preguntas que abarcan más de 100 disciplinas, examinadas por más de 1000 expertos en la materia de 50 países. A diferencia de los típicos puntos de referencia de IA que se basan en información de fácil búsqueda, las preguntas HLE están diseñadas para ser inequívocas pero no disponibles en línea. El objetivo: medir la comprensión genuina, no sólo la capacidad de regurgitar datos.
Las primeras pruebas realizadas a principios de 2025 mostraron resultados deficientes: el GPT-4o de OpenAI y el Gemini 1.5 Pro de Google no lograron superar el 8,3% de precisión. Sin embargo, los investigadores predicen que la IA podría superar el 50% de precisión para finales de 2025, dado el rápido ritmo de desarrollo. En febrero de 2026, Gemini 3 Deep Think de Google logró la puntuación más alta con un 48,4 %, todavía significativamente por debajo del 90 % típico de los expertos humanos en sus campos.
Por qué esto es importante: más allá de las puntuaciones
El HLE no se trata sólo de números. Destaca una brecha crítica entre la IA actual y la verdadera inteligencia general (AGI). Si bien la IA sobresale en tareas específicas, todavía tiene dificultades con el conocimiento amplio y adaptable que poseen los humanos. Esta prueba es una forma de medir qué tan cerca estamos de máquinas que realmente pueden pensar, razonar y aprender como personas.
El diseño de este examen es único porque requiere que las preguntas sean precisas, inequívocas, solucionables y no investigables. El equipo rechazó automáticamente cualquier pregunta que los modelos pudieran responder correctamente, asegurándose de que solo se incluyera material verdaderamente desafiante.
Ejemplos del rigor del examen
Las preguntas en sí cubren un amplio espectro, desde trivialidades oscuras como “En la mitología griega, ¿quién era el bisabuelo materno de Jason?” a problemas complejos de física que requieren una comprensión avanzada. Esta amplitud de materias distingue al HLE de otros puntos de referencia, como el conjunto de datos Massive Multitask Language Understanding (MMLU), que se centra en gran medida en la codificación y las matemáticas. Gemini 3 Deep Think, por ejemplo, logró el 84,6% en el punto de referencia ARC-AGI-2 pero no logró alcanzar el 50% en el HLE.
El veredicto: todavía no es AGI
Los autores del estudio enfatizan que una puntuación alta en el HLE no significa automáticamente AGI. Lograr un desempeño de nivel experto en preguntas verificables es sólo una pieza del rompecabezas. La verdadera inteligencia requiere capacidades de investigación autónomas, resolución creativa de problemas y la capacidad de aplicar conocimientos en situaciones novedosas. Como afirma Manuel Schottdorf, neurocientífico involucrado en el proyecto: “Un buen desempeño en HLE es un criterio necesario, pero no suficiente, para decir que las máquinas han alcanzado la verdadera inteligencia”.
El HLE representa un paso significativo en la medición del progreso de la IA, pero también subraya que todavía estamos lejos de máquinas que realmente puedan pensar como humanos. La búsqueda de la AGI está en curso, y puntos de referencia como este serán cruciales para rastrear qué tan cerca estamos.
