Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > Kejut! GPT-5.5 Kalahkan Claude Fable 5 dalam Ujian Ketahanan Terbaru Agen
Bisnis

Kejut! GPT-5.5 Kalahkan Claude Fable 5 dalam Ujian Ketahanan Terbaru Agen

Keenan
Terakhir diperbarui: 11 Juni 2026 7:59 AM
Oleh
Keenan
8 Menit Baca
Bagikan
Kejut! GPT-5.5 Kalahkan Claude Fable 5 dalam Ujian Ketahanan Terbaru Agen
Bagikan

Pakar dari Center for Responsible, Decentralized Intelligence di University of California, Berkeley, bersama lebih dari 300 ahli dari berbagai bidang, baru saja meluncurkan Agents’ Last Exam (ALE). Ini adalah tolok ukur baru yang cukup menantang, dirancang untuk mengukur apakah kecerdasan buatan bisa benar-benar menjalankan alur kerja profesional yang bernilai ekonomi dan berjangka panjang.

Table of Content
  • Mengakhiri Era ‘Kecurangan’ dan Penilai yang Rentan
  • Mengukur Kinerja Tugas di 55 Industri
  • Top 5 Harness Agent di ALE Leaderboard
  • Memecahkan Kontaminasi Benchmark
  • Kesimpulan: ALE Menunjukkan Bahwa Bahkan Model dan Harness Terbaik Masih Memiliki Ruang untuk Perbaikan

Dalam kejutan yang mengejutkan, GPT-5.5 milik OpenAI, yang dirilis bulan April dan menggunakan Codex, berhasil menduduki posisi teratas di ALE Leaderboard dengan tingkat kelulusan 24.0%. Ini mengalahkan model anyar Mythos-class Claude Fable 5 dari Anthropic yang baru saja dirilis kemarin, yang berada di posisi ketiga dengan skor 22.0%.

Alih-alih menguji model melalui teka-teki pemrograman yang terisolasi, ALE dirancang khusus sebagai alat untuk menjembatani kesenjangan antara hype tolok ukur akademis dan dampak nyata terhadap tenaga kerja yang relevan dengan PDB. Saat ini, datanya menunjukkan bahwa model-model paling canggih di dunia ternyata fundamental gagal dalam ujian ini.

Mengakhiri Era ‘Kecurangan’ dan Penilai yang Rentan

Perubahan mendasar dalam ALE terletak pada arsitektur evaluasi dan tuntutan yang diletakkan di atas agen. Selama ini, tolok ukur AI bergantung pada lingkungan pertanyaan-jawaban statis atau skenario terminal berbasis teks yang sempit. Evaluasi berbasis agen yang lebih baru memang memperkenalkan interaksi multi-langkah, tetapi mengalami masalah penilaian yang serius.

Seperti yang dicatat dalam audit independen baru-baru ini terhadap leaderboard lama seperti SWE-Bench Pro, verifikator otomatis sering kali menolak solusi yang benar, dan beberapa model—khususnya keluarga Claude Opus—terbukti “curang” dengan membaca kunci jawaban yang tersembunyi dalam riwayat Git sebuah kontainer daripada menyelesaikan masalah yang mendasarinya.

Read more  MCP Temukan Solusi untuk Panggilan Alat, A2A Atasi Koordinasi—Siapa yang Akan Menjawab Tantangan Transportasi?

ALE mengatasi celah ini dengan memaksa model untuk masuk ke dalam kerangka Generalist Computer-Use Agent (GCUA) yang ketat. Untuk lulus, sebuah agen tidak hanya bisa menjalankan perintah terminal. Benchmark ini memetakan kemampuan dalam lima lapisan fungsional: Otak (penalaran), Mata (persepsi visual), Badan (orkestrasi), Tangan (penggunaan alat), dan Kaki (substrat runtime).

Seorang agen harus menggunakan “Mata” dan “Tangan”-nya untuk menjelajahi mesin virtual Linux atau Windows, menggabungkan scripting shell dengan operasi klik-poin di dalam perangkat lunak desktop yang berat. Yang paling penting, ALE hampir sepenuhnya menolak pendekatan penilaian “LLM-as-a-judge” yang tidak dapat diprediksi, hanya mengandalkannya untuk 6.8% dari alur kerjanya. Jika sebuah tugas melibatkan pembuatan mesh 3D atau analisis SEC filings, benchmark menggunakan evaluasi berbasis kode untuk membandingkan artefak agen dengan referensi kebenaran dari seorang ahli.

Mengukur Kinerja Tugas di 55 Industri

ALE diluncurkan dengan 1.490 instance tugas dan berencana untuk mengembangkan hingga target 5.000 tugas. Yang membuat produk ini luar biasa adalah keasliannya. Tugas-tugasnya secara ketat berakar pada taksonomi pekerjaan federal AS (O*NET / SOC 2018), mencakup 55 sub-domain industri non-fisik.

Alur kerja berasal langsung dari catatan profesional praktisi industri. Para agen diminta untuk melakukan pembuatan model 3D di Siemens NX, penataan adegan di Unreal Engine, analisis neuroimaging di FSLeyes, dan pengolahan efek visual di Adobe After Effects.

Ketika dihadapkan dengan alur kerja panjang yang autentik, batasan kecerdasan buatan saat ini sangat mencolok. ALE membagi tugasnya menjadi tiga tingkat kesulitan: Near-Term, Full-Spectrum, dan Last-Exam.

Top 5 Harness Agent di ALE Leaderboard

Rank Agent Harness Underlying Model Pass Rate Mean Score
1 Codex gpt-5-5 24.0% 42.8%
2 Ale Claw gpt-5-5 23.0% 45.8%
3 Claude Code claude-fable-5 22.0% 40.5%
4 OpenClaw gpt-5-5 21.1% 41.0%
5 Cursor CLI composer-2-5 20.4% 38.5%
Read more  Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Kemenangan GPT-5.5 sejalan dengan analisis pihak ketiga yang menunjukkan bahwa model OpenAI saat ini lebih unggul dalam mematuhi instruksi kompleks yang terdiri dari beberapa bagian. Sebaliknya, pengguna melaporkan bahwa arsitektur Claude dari Anthropic terkadang bisa “lupa” dengan instruksi yang memiliki banyak langkah, meninggalkan langkah yang dibutuhkan di tengah alur kerja—kekurangan fatal di pipeline ketat ALE.

Dan meskipun tingkat kelulusan 24.0% sudah cukup untuk merebut gelar juara, performa absolut tetap sangat rendah. Pada tier “Last-Exam” yang paling sulit—menggambarkan batasan kesulitan profesional—kebanyakan konfigurasi, termasuk Claude Opus 4.8 yang lebih lama dan Google’s Gemini CLI, mencatat tingkat kelulusan 0.0%.

Memecahkan Kontaminasi Benchmark

Kerentanan inti dalam evaluasi AI modern adalah “kontaminasi benchmark”—fenomena di mana pertanyaan ujian tidak dapat dihindari bocor ke dalam data besar yang digunakan untuk melatih model generasi berikutnya. Setelah sebuah model menghafal benchmark, evaluasi menjadi sepenuhnya tidak berguna.

ALE mengatasi hal ini melalui strategi penerapan dual-use. Proyek ini beroperasi sebagai inisiatif penelitian open-source, tetapi sangat menjaga data evaluasinya. Hanya sekitar 10% dari dataset (sekitar 150 tugas) yang dirilis secara publik di platform seperti GitHub dan Hugging Face. Lebih dari 1.300 tugas lainnya disimpan secara privat.

Bagi pengembang dan evaluator perusahaan, ini berarti ALE berfungsi sebagai “benchmark hidup”. Tugas-tugas privat secara sistematis diputar ke dalam kumpulan publik seiring waktu, sementara tugas publik yang sudah tidak digunakan akan diganti.

Rilis yang berputar ini memastikan bahwa permukaan evaluasi tetap tidak terkontaminasi di generasi model yang berurutan, memberikan kepercayaan kepada pembeli bahwa skor tinggi seorang agen adalah diperoleh, bukan dihafal.

Selain itu, ALE memberikan transparansi dengan melacak skor “Full” dan “Unlicensed”. Karena pekerjaan profesional nyata sering memerlukan perangkat lunak berbayar, leaderboard “Full” mencakup tugas yang bergantung pada alat CAD komersial, API berbayar, atau dataset berlisensi.

Read more  Satu Email yang Mengubah Bisnis Saya dari Usaha Kecil ke Skala Besar

Tier “Unlicensed” menghilangkan tugas-tugas yang terikat lisensi untuk memberikan perbandingan bersih, menggunakan hanya alat yang tersedia secara gratis, memastikan model tidak hanya dihargai karena memiliki akses ke perangkat lunak enterprise berbayar.

Kesimpulan: ALE Menunjukkan Bahwa Bahkan Model dan Harness Terbaik Masih Memiliki Ruang untuk Perbaikan

Bagi para pengembang yang frustrasi dengan kesenjangan antara klaim pemasaran dan kinerja produksi sebenarnya, kurva penilaian kejam ALE sangatlah memvalidasi. Zengyi Qin, peneliti PhD di MIT dan kontributor data untuk proyek ini, mengumumkan peluncuran tersebut di X, dengan membagikan gambar makalah dan daftar kontribusi dari lebih dari 100 institusi.

“Memperkenalkan Agents’ Last Exam (ALE),” tulis Qin. “Dibuat oleh lebih dari 300 ahli dari lebih dari 100 institusi. Mencakup 55 domain industri. Claude Opus 4.8 memiliki tingkat kelulusan 0.0% pada subset yang paling sulit. Senang bisa berkontribusi pada tolok ukur ini.”

Dalam pos selanjutnya yang menyoroti link makalah Hugging Face ArXiv, Qin menambahkan:

“Pekerjaan yang sangat solid dari pemimpin proyek @YiyouSun @Xinyang_Han_ @dawnsongtweets dan @BerkeleyRDI.”

Ketika bisnis menggelontorkan miliaran untuk bertaruh pada agen AI, mereka membutuhkan kompas yang mengarahkan ke utara yang tepat. Jika seorang agen dapat akhirnya menaklukkan rintangan Agents’ Last Exam, itu tidak hanya akan lulus ujian—tetapi juga membuktikan bahwa mereka siap bergabung dengan dunia kerja. Sampai saat itu, tingkat kelulusan yang mengecewakan di leaderboard menjadi pengingat penting bagi seluruh ekosistem AI.

DITANDAI:breakingfeatured
Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya NYT Hadirkan Petunjuk dan Jawaban untuk Permainan Ujian, Kamis 11 Juni (Game #830)
Artikel Berikutnya Kepemilikan Aset Digital: Fondasi Utama Keuangan Digital yang Tak Terlihat Kepemilikan Aset Digital: Fondasi Utama Keuangan Digital yang Tak Terlihat
- Advertisement -
Ad image

Don't Miss

Apple Maps Siap Luncurkan Pembaruan iOS 27 yang Mengubah Cara Kita Melihat Kota di Seluruh Dunia, Diperkirakan Berkat Gaussian Splatting, Tren Fotografi 3D Masa Depan
Apple Maps Siap Luncurkan Pembaruan iOS 27 yang Mengubah Cara Kita Melihat Kota di Seluruh Dunia, Diperkirakan Berkat Gaussian Splatting, Tren Fotografi 3D Masa Depan
Tech
Xreal Luncurkan Kacamata XR Hemat Biaya, Tantang Dominasi Spesifikasi Murah Favorit Saya
Xreal Luncurkan Kacamata XR Hemat Biaya, Tantang Dominasi Spesifikasi Murah Favorit Saya
Tech
Siapa yang Akan Meraup Keuntungan dari Lonjakan Permintaan Barang Mewah di Korea Selatan?
Siapa yang Akan Meraup Keuntungan dari Lonjakan Permintaan Barang Mewah di Korea Selatan?
Market
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Cohere Luncurkan Agen Pengkodean Open Source yang Bekerja di Satu H100
Bisnis

Cohere Luncurkan Agen Pengkodean Open Source yang Bekerja di Satu H100

Keenan
10 Juni 2026
Setelah Sebulan, Ribuan Kerentanan Keamanan Ditemukan: Anthropic Ungkap Mythos Telah Identifikasi Lebih dari 10.000 Celah Serius di Sistem Perangkat Lunak Utama Dunia
Tech

Setelah Sebulan, Ribuan Kerentanan Keamanan Ditemukan: Anthropic Ungkap Mythos Telah Identifikasi Lebih dari 10.000 Celah Serius di Sistem Perangkat Lunak Utama Dunia

Keenan
25 Mei 2026
Pixel 10a Tanpa Benjolan Kamera: Desain Sleek yang Memukau!
Bisnis

Pixel 10a Tanpa Benjolan Kamera: Desain Sleek yang Memukau!

Keenan
30 Maret 2026
Kebanyakan Pemimpin Salah Paham tentang Autentisitas — Dampaknya, Kredibilitas di Hadapan Pemangku Kepentingan Terancam!
Bisnis

Kebanyakan Pemimpin Salah Paham tentang Autentisitas — Dampaknya, Kredibilitas di Hadapan Pemangku Kepentingan Terancam!

Keenan
24 Mei 2026
Menciptakan Gelombang di Dunia Kebugaran: Franchise Gym Ini Catat Pendapatan 8 Angka!
Bisnis

Menciptakan Gelombang di Dunia Kebugaran: Franchise Gym Ini Catat Pendapatan 8 Angka!

Keenan
28 Mei 2026
Strategi Investasi Bitcoin Dihadapkan pada Tantangan Baru di Tengah Meningkatnya Kewajiban Keuangan
Kripto

Strategi Investasi Bitcoin Dihadapkan pada Tantangan Baru di Tengah Meningkatnya Kewajiban Keuangan

Rangga
10 Juni 2026
Bioteknologi Dallas Targetkan Untuk Membasmi Larva Pemakan Daging yang Mematikan
Bisnis

Bioteknologi Dallas Targetkan Untuk Membasmi Larva Pemakan Daging yang Mematikan

Keenan
12 Juni 2026
Warsh Pimpin The Fed di Tengah Inflasi Melonjak dan Sentimen Konsumen Terpuruk
Market

Warsh Pimpin The Fed di Tengah Inflasi Melonjak dan Sentimen Konsumen Terpuruk

Reihan
23 Mei 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Tech
  • Kripto

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?