Para peneliti telah meluncurkan apa yang mereka sebut “Ujian Terakhir Kemanusiaan” (HLE) – sebuah tolok ukur baru yang dirancang untuk menilai secara ketat kemampuan model kecerdasan buatan (AI) terkemuka saat ini. Ujian ini, yang dikembangkan oleh Pusat Keamanan AI dan Skala AI, bukan sekadar tes AI; hal ini bertujuan untuk menentukan seberapa dekat mesin dalam menyamai atau melampaui keahlian manusia di berbagai bidang.

Ujian: Dibuat untuk Mendobrak AI

Diluncurkan pada bulan Januari 2025, HLE berisi 2.500 pertanyaan yang mencakup lebih dari 100 disiplin ilmu, diperiksa oleh lebih dari 1.000 pakar materi pelajaran dari 50 negara. Tidak seperti tolok ukur AI pada umumnya yang mengandalkan informasi yang mudah dicari, pertanyaan HLE dirancang tidak ambigu tetapi tidak tersedia secara online. Tujuannya: untuk mengukur pemahaman yang tulus, bukan sekadar kemampuan memuntahkan data.

Pengujian awal pada awal tahun 2025 menunjukkan hasil yang buruk, dengan GPT-4o OpenAI dan Gemini 1.5 Pro Google gagal mencapai akurasi melebihi 8,3%. Namun, para peneliti memperkirakan bahwa AI dapat melampaui akurasi 50% pada akhir tahun 2025 mengingat pesatnya perkembangan. Pada Februari 2026, Gemini 3 Deep Think dari Google mencapai skor tertinggi yaitu 48,4%, masih jauh lebih rendah dibandingkan 90% tipikal pakar manusia di bidangnya.

Mengapa Ini Penting: Lebih dari Sekadar Skor

HLE bukan hanya tentang angka. Hal ini menyoroti kesenjangan kritis antara AI saat ini dan kecerdasan umum yang sebenarnya (AGI). Meskipun AI unggul dalam tugas-tugas tertentu, AI masih kesulitan dengan pengetahuan luas dan mudah beradaptasi yang dimiliki manusia. Tes ini adalah cara untuk mengukur seberapa dekat kita dengan mesin yang benar-benar dapat berpikir, bernalar, dan belajar seperti manusia.

Desain ujian ini unik karena memerlukan pertanyaan yang tepat, tidak ambigu, dapat dipecahkan, dan tidak dapat dicari. Tim secara otomatis menolak pertanyaan apa pun yang dapat dijawab dengan benar oleh model, memastikan bahwa hanya materi yang benar-benar menantang yang disertakan.

Contoh Ketatnya Ujian

Pertanyaannya sendiri mencakup spektrum yang luas, mulai dari hal-hal sepele yang tidak jelas seperti “Dalam mitologi Yunani, siapakah kakek buyut dari pihak ibu Jason?” untuk masalah fisika kompleks yang membutuhkan pemahaman tingkat lanjut. Luasnya mata pelajaran ini membedakan HLE dari tolok ukur lainnya, seperti kumpulan data Massive Multitask Language Understanding (MMLU), yang sangat berfokus pada pengkodean dan matematika. Gemini 3 Deep Think, misalnya, mencapai 84,6% pada benchmark ARC-AGI-2 tetapi gagal mencapai 50% pada HLE.

Putusan: Belum AGI

Penulis studi tersebut menekankan bahwa skor tinggi pada HLE tidak secara otomatis menandakan AGI. Mencapai kinerja tingkat ahli pada pertanyaan yang dapat diverifikasi hanyalah salah satu bagian dari teka-teki. Kecerdasan sejati memerlukan kemampuan penelitian mandiri, pemecahan masalah secara kreatif, dan kemampuan menerapkan pengetahuan dalam situasi baru. Seperti yang dinyatakan oleh Manuel Schottdorf, seorang ahli saraf yang terlibat dalam proyek ini: “Melakukan HLE dengan baik adalah suatu keharusan, tetapi bukan kriteria yang cukup untuk mengatakan bahwa mesin telah mencapai kecerdasan sejati.”

HLE mewakili langkah signifikan dalam mengukur kemajuan AI, namun hal ini juga menggarisbawahi bahwa kita masih jauh dari mesin yang benar-benar dapat berpikir seperti manusia. Upaya untuk mencapai AGI sedang berlangsung, dan tolok ukur seperti ini akan sangat penting dalam melacak seberapa dekat kita.