Dalam waktu kurang dari dua bulan, Anthropic dan rekan-rekannya telah menemukan lebih dari sepuluh ribu kerentanan keamanan yang bersifat kritis dan tinggi melalui alat kecerdasan buatan yang terkenal, Mythos Preview.
Dalam pembaruan singkat tentang proyek ini, yang dipublikasikan akhir pekan lalu, Anthropic menyatakan bahwa sejak peluncuran alat ini, sekitar 50 organisasi yang menggunakan Mythos masing-masing menemukan “ratusan” kerentanan.
“Beberapa organisasi memberitahu kami bahwa tingkat penemuan bug mereka meningkat lebih dari sepuluh kali lipat,” kata perusahaan itu. “Contohnya, Cloudflare menemukan 2.000 bug (400 di antaranya bersifat tinggi atau kritis) di sistem jalur kritis mereka, dengan tingkat positif palsu yang dianggap lebih baik dari pengujian manusia.”
Anthropic menjelaskan bahwa biasanya, rincian tentang kerentanan dibagikan dengan penundaan 90 hari, untuk memberi waktu bagi pengguna untuk mengatasi masalah dan supaya tidak menempatkan siapa pun dalam risiko. Oleh karena itu, mereka hanya membagikan contoh umum yang “ilustratif” untuk menunjukkan betapa kuatnya alat ini.
Dalam konteks tersebut, Mythos diperkirakan telah menemukan sekitar 6.202 kerentanan dengan tingkat keparahan tinggi atau kritis di proyek-proyek ini (dari semua 23.019 yang diperkirakan, termasuk yang dianggap sedang atau rendah).
Skeptisisme Masih Ada
Dari jumlah tersebut, 1.752 telah dievaluasi oleh peneliti keamanan independen, dan 90% di antaranya dikonfirmasi sebagai positif yang valid, sementara 62,4% dikonfirmasi sebagai bersifat tinggi atau kritis.
Meski respon umum terhadap Mythos Preview sangat positif, ada juga suara-suara skeptis yang berpendapat bahwa hype yang terjadi mungkin berlebihan. Misalnya, analisis oleh Techzine menyatakan bahwa penemuan kerentanan yang dibantu AI sudah ada melalui sistem seperti Google Big Sleep, dan tantangan sesungguhnya masih seputar keamanan operasional manusia.
Sebuah makalah akademis terbaru, “Benchmarking Mythos-Linked Bug Rediscovery,” menemukan bahwa dalam kondisi yang terkontrol, model-model publik seperti GPT-5.5 mampu rediscover beberapa kerentanan yang sama dengan yang dikaitkan dengan Mythos. Di Reddit, berbagai komunitas bahkan lebih skeptis. Inti dari semua ini sepertinya adalah bahwa Mythos mungkin hanya menggunakan komputasi yang sangat besar dan alur kerja yang berlangsung lama, bukan karena memiliki kemampuan penalaran yang berbeda secara kualitatif.
Dalam hal ini, Anthropic sekarang mengatakan bahwa kemajuan dalam kerentanan perangkat lunak tidak lagi terhambat oleh kecepatan penemuan, tetapi lebih oleh kecepatan verifikasi, pengungkapan, dan perbaikan.

