Kejut! GPT-5.5 Kalahkan Claude Fable 5 dalam Ujian Ketahanan Terbaru Agen

Pakar dari Center for Responsible, Decentralized Intelligence di University of California, Berkeley, bersama lebih dari 300 ahli dari berbagai bidang, baru saja meluncurkan Agentsâ€™ Last Exam (ALE). Ini adalah tolok ukur baru yang cukup menantang, dirancang untuk mengukur apakah kecerdasan buatan bisa benar-benar menjalankan alur kerja profesional yang bernilai ekonomi dan berjangka panjang.

Table of Content

Mengakhiri Era ‘Kecurangan’ dan Penilai yang Rentan
Mengukur Kinerja Tugas di 55 Industri
Top 5 Harness Agent di ALE Leaderboard
Memecahkan Kontaminasi Benchmark
Kesimpulan: ALE Menunjukkan Bahwa Bahkan Model dan Harness Terbaik Masih Memiliki Ruang untuk Perbaikan

Dalam kejutan yang mengejutkan, GPT-5.5 milik OpenAI, yang dirilis bulan April dan menggunakan Codex, berhasil menduduki posisi teratas di ALE Leaderboard dengan tingkat kelulusan 24.0%. Ini mengalahkan model anyar Mythos-class Claude Fable 5 dari Anthropic yang baru saja dirilis kemarin, yang berada di posisi ketiga dengan skor 22.0%.

Alih-alih menguji model melalui teka-teki pemrograman yang terisolasi, ALE dirancang khusus sebagai alat untuk menjembatani kesenjangan antara hype tolok ukur akademis dan dampak nyata terhadap tenaga kerja yang relevan dengan PDB. Saat ini, datanya menunjukkan bahwa model-model paling canggih di dunia ternyata fundamental gagal dalam ujian ini.

Mengakhiri Era ‘Kecurangan’ dan Penilai yang Rentan

Perubahan mendasar dalam ALE terletak pada arsitektur evaluasi dan tuntutan yang diletakkan di atas agen. Selama ini, tolok ukur AI bergantung pada lingkungan pertanyaan-jawaban statis atau skenario terminal berbasis teks yang sempit. Evaluasi berbasis agen yang lebih baru memang memperkenalkan interaksi multi-langkah, tetapi mengalami masalah penilaian yang serius.

Seperti yang dicatat dalam audit independen baru-baru ini terhadap leaderboard lama seperti SWE-Bench Pro, verifikator otomatis sering kali menolak solusi yang benar, dan beberapa modelâ€”khususnya keluarga Claude Opusâ€”terbukti “curang” dengan membaca kunci jawaban yang tersembunyi dalam riwayat Git sebuah kontainer daripada menyelesaikan masalah yang mendasarinya.

ALE mengatasi celah ini dengan memaksa model untuk masuk ke dalam kerangka Generalist Computer-Use Agent (GCUA) yang ketat. Untuk lulus, sebuah agen tidak hanya bisa menjalankan perintah terminal. Benchmark ini memetakan kemampuan dalam lima lapisan fungsional: Otak (penalaran), Mata (persepsi visual), Badan (orkestrasi), Tangan (penggunaan alat), dan Kaki (substrat runtime).

Seorang agen harus menggunakan “Mata” dan “Tangan”-nya untuk menjelajahi mesin virtual Linux atau Windows, menggabungkan scripting shell dengan operasi klik-poin di dalam perangkat lunak desktop yang berat. Yang paling penting, ALE hampir sepenuhnya menolak pendekatan penilaian “LLM-as-a-judge” yang tidak dapat diprediksi, hanya mengandalkannya untuk 6.8% dari alur kerjanya. Jika sebuah tugas melibatkan pembuatan mesh 3D atau analisis SEC filings, benchmark menggunakan evaluasi berbasis kode untuk membandingkan artefak agen dengan referensi kebenaran dari seorang ahli.

Mengukur Kinerja Tugas di 55 Industri

ALE diluncurkan dengan 1.490 instance tugas dan berencana untuk mengembangkan hingga target 5.000 tugas. Yang membuat produk ini luar biasa adalah keasliannya. Tugas-tugasnya secara ketat berakar pada taksonomi pekerjaan federal AS (O*NET / SOC 2018), mencakup 55 sub-domain industri non-fisik.

Alur kerja berasal langsung dari catatan profesional praktisi industri. Para agen diminta untuk melakukan pembuatan model 3D di Siemens NX, penataan adegan di Unreal Engine, analisis neuroimaging di FSLeyes, dan pengolahan efek visual di Adobe After Effects.

Ketika dihadapkan dengan alur kerja panjang yang autentik, batasan kecerdasan buatan saat ini sangat mencolok. ALE membagi tugasnya menjadi tiga tingkat kesulitan: Near-Term, Full-Spectrum, dan Last-Exam.

Top 5 Harness Agent di ALE Leaderboard

Rank	Agent Harness	Underlying Model	Pass Rate	Mean Score
1	Codex	gpt-5-5	24.0%	42.8%
2	Ale Claw	gpt-5-5	23.0%	45.8%
3	Claude Code	claude-fable-5	22.0%	40.5%
4	OpenClaw	gpt-5-5	21.1%	41.0%
5	Cursor CLI	composer-2-5	20.4%	38.5%

Kemenangan GPT-5.5 sejalan dengan analisis pihak ketiga yang menunjukkan bahwa model OpenAI saat ini lebih unggul dalam mematuhi instruksi kompleks yang terdiri dari beberapa bagian. Sebaliknya, pengguna melaporkan bahwa arsitektur Claude dari Anthropic terkadang bisa “lupa” dengan instruksi yang memiliki banyak langkah, meninggalkan langkah yang dibutuhkan di tengah alur kerjaâ€”kekurangan fatal di pipeline ketat ALE.

Dan meskipun tingkat kelulusan 24.0% sudah cukup untuk merebut gelar juara, performa absolut tetap sangat rendah. Pada tier “Last-Exam” yang paling sulitâ€”menggambarkan batasan kesulitan profesionalâ€”kebanyakan konfigurasi, termasuk Claude Opus 4.8 yang lebih lama dan Googleâ€™s Gemini CLI, mencatat tingkat kelulusan 0.0%.

Memecahkan Kontaminasi Benchmark

Kerentanan inti dalam evaluasi AI modern adalah “kontaminasi benchmark”â€”fenomena di mana pertanyaan ujian tidak dapat dihindari bocor ke dalam data besar yang digunakan untuk melatih model generasi berikutnya. Setelah sebuah model menghafal benchmark, evaluasi menjadi sepenuhnya tidak berguna.

ALE mengatasi hal ini melalui strategi penerapan dual-use. Proyek ini beroperasi sebagai inisiatif penelitian open-source, tetapi sangat menjaga data evaluasinya. Hanya sekitar 10% dari dataset (sekitar 150 tugas) yang dirilis secara publik di platform seperti GitHub dan Hugging Face. Lebih dari 1.300 tugas lainnya disimpan secara privat.

Bagi pengembang dan evaluator perusahaan, ini berarti ALE berfungsi sebagai “benchmark hidup”. Tugas-tugas privat secara sistematis diputar ke dalam kumpulan publik seiring waktu, sementara tugas publik yang sudah tidak digunakan akan diganti.

Rilis yang berputar ini memastikan bahwa permukaan evaluasi tetap tidak terkontaminasi di generasi model yang berurutan, memberikan kepercayaan kepada pembeli bahwa skor tinggi seorang agen adalah diperoleh, bukan dihafal.

Selain itu, ALE memberikan transparansi dengan melacak skor “Full” dan “Unlicensed”. Karena pekerjaan profesional nyata sering memerlukan perangkat lunak berbayar, leaderboard “Full” mencakup tugas yang bergantung pada alat CAD komersial, API berbayar, atau dataset berlisensi.

Tier “Unlicensed” menghilangkan tugas-tugas yang terikat lisensi untuk memberikan perbandingan bersih, menggunakan hanya alat yang tersedia secara gratis, memastikan model tidak hanya dihargai karena memiliki akses ke perangkat lunak enterprise berbayar.

Kesimpulan: ALE Menunjukkan Bahwa Bahkan Model dan Harness Terbaik Masih Memiliki Ruang untuk Perbaikan

Bagi para pengembang yang frustrasi dengan kesenjangan antara klaim pemasaran dan kinerja produksi sebenarnya, kurva penilaian kejam ALE sangatlah memvalidasi. Zengyi Qin, peneliti PhD di MIT dan kontributor data untuk proyek ini, mengumumkan peluncuran tersebut di X, dengan membagikan gambar makalah dan daftar kontribusi dari lebih dari 100 institusi.

“Memperkenalkan Agentsâ€™ Last Exam (ALE),” tulis Qin. “Dibuat oleh lebih dari 300 ahli dari lebih dari 100 institusi. Mencakup 55 domain industri. Claude Opus 4.8 memiliki tingkat kelulusan 0.0% pada subset yang paling sulit. Senang bisa berkontribusi pada tolok ukur ini.”

Dalam pos selanjutnya yang menyoroti link makalah Hugging Face ArXiv, Qin menambahkan:

“Pekerjaan yang sangat solid dari pemimpin proyek @YiyouSun @Xinyang_Han_ @dawnsongtweets dan @BerkeleyRDI.”

Ketika bisnis menggelontorkan miliaran untuk bertaruh pada agen AI, mereka membutuhkan kompas yang mengarahkan ke utara yang tepat. Jika seorang agen dapat akhirnya menaklukkan rintangan Agents’ Last Exam, itu tidak hanya akan lulus ujianâ€”tetapi juga membuktikan bahwa mereka siap bergabung dengan dunia kerja. Sampai saat itu, tingkat kelulusan yang mengecewakan di leaderboard menjadi pengingat penting bagi seluruh ekosistem AI.