Sebuah bug berusia 27 tahun ditemukan di dalam tumpukan TCP OpenBSD saat auditor memeriksa kodenya, fuzzers dijalankan, dan sistem operasi tersebut dikenal sebagai salah satu platform dengan keamanan paling kuat di dunia. Dua paket dapat membuat server yang menjalankannya crash. Menemukan bug ini menghabiskan sekitar $20,000 untuk satu kampanye penemuan di Anthropic, sementara model spesifik yang digunakan untuk mendeteksi masalah tersebut hanya memerlukan dana kurang dari $50.
- Lonjakan kemampuan yang tidak inkremental
- Direktur keamanan dapat pengumuman, tapi tidak mendapat panduan
- Tujuh kelas kerentanan yang menunjukkan di mana setiap metode deteksi mencapai batasnya
- Matriks preskriptif VentureBeat
- Pelaku penyerangan bergerak lebih cepat. Pembela melakukan patch setahun sekali.
- Apa yang harus disampaikan kepada dewan
Model Claude Mythos Preview milik Anthropic yang menemukannya. Secara mandiri. Tidak ada intervensi manusia setelah prompt awal.
Lonjakan kemampuan yang tidak inkremental
Pada penulisan exploit Firefox 147, Mythos berhasil mencetak 181 kali, dibandingkan hanya 2 untuk Claude Opus 4.6. Ini adalah peningkatan 90 kali lipat dalam satu generasi. Untuk SWE-bench Pro, angka mencapai 77,8% berbanding 53,4%. Reproduksi kerentanan CyberGym: 83,1% berbanding 66,6%. Mythos mengeksploitasi Cybench CTF milik Anthropic hingga 100%, sehingga tim penguji merah harus beralih ke penemuan zero-day nyata sebagai evaluasi yang berarti. Kemudian, Mythos berhasil menemukan ribuan kerentanan zero-day di semua sistem operasi utama serta browser utama, banyak di antaranya berusia satu hingga dua dekade. Insinyur Anthropic tanpa pelatihan keamanan formal meminta Mythos untuk menemukan kerentanan eksekusi kode jarak jauh dalam semalam dan mereka bangun dengan exploit yang lengkap dan berfungsi pada pagi harinya, menurut penilaian tim penguji merah Anthropic.
Anthropic mengumpulkan Project Glasswing, sebuah koalisi defensif yang terdiri dari 12 mitra termasuk CrowdStrike, Cisco, Palo Alto Networks, Microsoft, AWS, Apple, dan Linux Foundation, didukung dengan $100 juta dalam kredit penggunaan dan $4 juta dalam hibah open-source. Lebih dari 40 organisasi tambahan yang membangun atau memelihara infrastruktur perangkat lunak vital juga mendapatkan akses. Para mitra telah menjalankan Mythos di infrastruktur mereka sendiri selama beberapa minggu. Anthropic berkomitmen untuk melaporkan temuan publik “dalam 90 hari,” yang akan keluar pada awal Juli 2026.
Direktur keamanan dapat pengumuman, tapi tidak mendapat panduan
“Saya sudah berada di industri ini selama 27 tahun,” kata Anthony Grieco, SVP Cisco dan Chief Security and Trust Officer, dalam wawancara eksklusif dengan VentureBeat di RSAC 2026. “Saya belum pernah seoptimis ini tentang apa yang bisa kita lakukan untuk mengubah keamanan berkat kecepatan yang ada. Namun, ini juga sedikit menakutkan karena kita bergerak terlalu cepat. Dan tentunya menakutkan karena musuh kita memiliki kemampuan yang sama, jadi kita harus bergerak cepat.”
Direktur keamanan melihat kisah ini diceritakan dalam lima belas cara berbeda minggu ini, termasuk wawancara eksklusif VentureBeat dengan Newton Cheng dari Anthropic. Salah satu posting X yang banyak dibagikan merangkum temuan Mythos, mencatat bahwa model ini berhasil “memecahkan” library kriptografi, membobol monitor mesin virtual produksi, dan memberikan para insinyur yang tidak memiliki pelatihan keamanan exploit yang siap pakai pada pagi hari. Apa yang tidak dijawab dalam laporan itu adalah: di mana letak batas deteksi dalam metode yang mereka jalankan saat ini, dan apa yang harus mereka ubah sebelum bulan Juli?
Tujuh kelas kerentanan yang menunjukkan di mana setiap metode deteksi mencapai batasnya
-
OpenBSD TCP SACK, berusia 27 tahun. Dua paket yang dirancang dapat membuat server crash. SAST, fuzzers, dan auditor tidak menemukan kesalahan logika yang memerlukan penalaran semantik tentang bagaimana opsi TCP saling berinteraksi di bawah kondisi adversarial. Biaya kampanye sekitar $20,000. Anthropic mencatat bahwa angka $50 per-run mencerminkan pandangan dari belakang.
-
FFmpeg H.264 codec, berusia 16 tahun. Fuzzers telah mencoba jalur kode yang rentan 5 juta kali tanpa memicu kesalahan, menurut Anthropic. Mythos menangkapnya dengan menalar semantik kode. Biaya kampanye sekitar $10,000.
-
FreeBSD NFS eksekusi kode jarak jauh, CVE-2026-4747, berusia 17 tahun. Root tidak terautentikasi dari internet, menurut penilaian Anthropic dan reproduksi independen. Mythos membangun rantai ROP yang terdiri dari 20 gadget yang dibagi dalam beberapa paket. Sepenuhnya mandiri.
-
Kernel Linux eskalasi hak istimewa lokal. Mythos menghubungkan dua hingga empat kerentanan rendah menjadi eskalasi hak istimewa lokal penuh melalui kondisi balapan dan bypass KASLR. Rich Mogull dari CSA mencatat bahwa Mythos gagal dalam eksploitasi kernel jarak jauh tetapi berhasil secara lokal. Saat ini tidak ada alat otomatis untuk menemukan kerentanan.
-
Zero-day browser di semua browser utama. Ribuan teridentifikasi. Beberapa memerlukan kolaborasi antara model dan manusia. Dalam satu kasus, Mythos menghubungkan empat kerentanan menjadi semprotan heap JIT, melepaskan kedua renderer dan sandbox OS. Firefox 147: 181 exploit bekerja dibandingkan hanya dua untuk Opus 4.6.
-
Kerentanan library kriptografi (TLS, AES-GCM, SSH). Kekurangan implementasi yang memungkinkan pemalsuan sertifikat atau dekripsi komunikasi terenkripsi, menurut blog tim merah Anthropic dan Help Net Security. Sebuah bypass kritis di library Botan diumumkan pada hari yang sama dengan pengumuman Glasswing. Bug dalam kode yang menerapkan matematikanya. Bukan serangan terhadap matematikanya sendiri.
-
Virtual machine monitor pelarian guest-to-host. Kerusakan memori guest-to-host dalam VMM produksi, teknologi yang menjaga beban kerja cloud agar tidak saling melihat data. Arsitektur keamanan cloud mengasumsikan isolasi beban kerja dipertahankan. Temuan ini mematahkan asumsi tersebut.
Nicholas Carlini, dalam briefing peluncuran Anthropic, mengatakan: “Saya menemukan lebih banyak bug dalam beberapa minggu terakhir dibandingkan dengan yang saya temukan dalam sisa hidup saya.”
Matriks preskriptif VentureBeat
|
Kelas Kerentanan |
Mengapa Metode Saat Ini Melewatkannya |
Apa yang Dilakukan Mythos |
Tindakan Direktur Keamanan |
|
Logika kernel OS (OpenBSD 27th, rantai Linux 2-4) |
SAST kurang penalaran semantik. Fuzzers melewatkan kesalahan logika. Pengujian penangkap dibatasi waktu. Bounty sering tidak mencakup kernel. |
Menghubungkan 2-4 temuan rendah menjadi eskalasi hak istimewa lokal. Biaya kampanye sekitar $20K. |
Tambahkan ulasan kernel yang dibantu AI ke RFP pengujian penangkap. Perluas cakupan bounty. Minta temuan Glasswing dari vendor OS sebelum Juli. Nilai ulang temuan yang dikelompokkan dengan mengukur kemampuannya untuk terhubung. |
|
Media codec (FFmpeg 16th H.264) |
SAST tidak menandai. Fuzzers telah mencoba jalur 5 juta kali dan tidak pernah memicu. |
Menalar semantik di luar paksaan-mutu. Biaya kampanye sekitar $10K. |
Inventaris FFmpeg, libwebp, ImageMagick, libpng. Berhenti memperlakukan cakupan fuzz sebagai proxy keamanan. Lacak CVE codec Glasswing dari Juli. |
|
RCE tumpukan jaringan (FreeBSD 17th, CVE-2026-4747) |
DAST terbatas pada kedalaman protokol. Pengujian penangkap melewatkan NFS. |
Kemampuan mandiri sepenuhnya menuju root tidak terautentikasi. Rantai ROP 20 gadget. |
Patch CVE-2026-4747 sekarang. Inventaris layanan NFS/SMB/RPC. Tambahkan fuzzing protokol ke siklus 2026. |
|
Penggabungan banyak kerentanan (2-4 urutan, lokal) |
Tidak ada rantai alat. Penguji terikat waktu. Skor CVSS dinilai secara terpisah. |
Penggabungan lokal mandiri melalui kondisi balapan + bypass KASLR. |
Wajibkan penggabungan yang dibantu AI dalam metodologi pengujian penangkap. Kembangkan skor ketergantungan. Anggarkan untuk red team AI di tahun 2026. |
|
Zero-day browser (ribuan, 181 eksploit Firefox) |
Bounty + fuzzing terus-menerus melepaskan banyak potensi. Beberapa memerlukan kolaborasi antara model dan manusia. |
90 kali lebih baik dibandingkan Opus 4.6. Menghubungkan 4 kerentanan menjadi sprayer heap JIT yang melarikan diri dari renderer + sandbox OS. |
Perpendek SLA patch menjadi 72 jam kritis. Pra-pasang saluran untuk siklus Juli. Tekan vendor untuk jadwal Glasswing. |
|
Library kriptografi (TLS, AES-GCM, SSH, bypass Botan) |
SAST terbatas pada logika kripto. Penguji jarang memeriksa kedalaman kripto. Verifikasi formal bukanlah standar. |
Menemukan bug pemalsuan dan dekripsi di dalam library yang telah diuji. |
Audit semua versi library kriptografi sekarang. Lacak CVE kripto Glasswing dari Juli. Percepat migrasi PQC. |
|
VMM/hypervisor (korupsi memori guest-to-host) |
Keamanan cloud mengasumsikan isolasi. Sedikit pengujian penangkap yang menargetkan hypervisor. Bounty jarang mencakup VMM. |
Pelarian guest-to-host dalam VMM produksi. |
Inventaris versi hypervisor/VMM. Minta temuan Glasswing dari penyedia cloud. Tinjau ulang asumsi isolasi multi-penyewa. |
Pelaku penyerangan bergerak lebih cepat. Pembela melakukan patch setahun sekali.
Laporan Ancaman Global CrowdStrike 2026 mencatat waktu breakout eCrime rata-rata 29 menit, 65% lebih cepat dibandingkan 2024, dengan lonjakan serangan yang dibantu AI meningkat 89% tahun ke tahun. CTO CrowdStrike, Elia Zaitsev menjelaskan kenyataan operasional ini secara langsung dalam wawancara eksklusif dengan VentureBeat. “Musuh yang memanfaatkan AI dapat melakukan serangan dengan kecepatan yang sangat tinggi sehingga proses tradisional untuk memeriksa alert, triage, dalam 15 hingga 20 menit, kemudian mengambil tindakan dalam satu jam, sehari, atau seminggu kemudian, sudah tidak memadai,” kata Zaitsev. Kampanye penemuan Mythos senilai $20,000 yang berlangsung dalam hitungan jam menggantikan upaya penelitian negara yang berlangsung berbulan-bulan.
CEO CrowdStrike, George Kurtz menegaskan tekanan waktu tersebut di LinkedIn pada hari yang sama dengan pengumuman Glasswing. “AI menciptakan penggerak permintaan keamanan terbesar sejak perusahaan beralih ke cloud,” tulis Kurtz. Jam operasional bertumpuk dengan jam regulasi. Fase penegakan berikutnya dari EU AI Act akan berlaku pada 2 Agustus 2026, yang memberlakukan pelacakan audit otomatis, persyaratan siber untuk setiap sistem AI berisiko tinggi, kewajiban pelaporan insiden, serta denda hingga 3% dari pendapatan global. Direktur keamanan menghadapi dua gelombang: siklus pengungkapan Glasswing pada Juli, kemudian tenggat kepatuhan pada bulan Agustus.
Mike Riemer, Field CISO di Ivanti yang juga veteran Angkatan Udara AS selama 25 tahun dan bekerja dekat dengan lembaga cybersecurity federal, mengatakan kepada VentureBeat apa yang dia dengar dari pemerintah. “Aktornya berbalik meneliti patch, dan kecepatan mereka melakukannya sangat ditingkatkan oleh AI,” kata Riemer. “Mereka dapat membalikkan rekayasa suatu patch dalam waktu 72 jam. Jadi jika saya merilis patch dan seorang pelanggan tidak meng-update dalam waktu 72 jam setelah rilis, mereka akan rentan untuk dieksploitasi.” Riemer berbicara blak-blakan soal posisi industri saat ini. “Mereka sudah jauh lebih maju dibandingkan kita sebagai pembela,” katanya.
Grieco mengkonfirmasi sisi lain dari benturan itu di RSAC 2026. “Jika Anda berbicara dengan tim operasional dan banyak dari pelanggan kami, mereka hanya melakukan patch setahun sekali,” kata Grieco kepada VentureBeat. “Dan jujur, bahkan dalam kondisi terbaik sekalipun, itu tidak cukup cepat.”
Mogull dari CSA berpendapat bahwa di jangka panjang, pembela memegang keunggulan: perbaiki satu kerentanan dan setiap penyebaran akan mendapatkan manfaatnya. Namun, periode transisi, ketika penyerang membalikkan rekayasa patch dalam 72 jam dan pembela melakukan patch setahun sekali, lebih menguntungkan untuk serangan.
Mythos bukan satu-satunya model yang menemukan bug ini. Para peneliti di AISLE, startup cybersecurity berbasis AI, menguji kerentanan showcase Anthropic pada model-model kecil dengan bobot terbuka dan menemukan bahwa semua model berhasil mendeteksi eksploitasi FreeBSD. AISLE menyatakan bahwa salah satu model hanya memiliki 3,6 miliar parameter dan biayanya 11 sen per satu juta token, sedangkan model terbuka dengan 5,1 miliar parameter memulihkan rantai analisis inti dari bug OpenBSD yang berusia 27 tahun tersebut. Kesimpulan AISLE: “Perlindungan dalam cybersecurity AI adalah sistem, bukan model.” Ini menjadikan batas deteksi sebagai masalah struktural, bukan hanya khusus Mythos. Model-model murah dapat menemukan bug yang sama. Garis waktu Juli semakin mendekat, bukan semakin mundur.
Lebih dari 99% kerentanan yang diidentifikasi Mythos belum diperbaiki, menurut blog tim merah Anthropic. Laporan publik Glasswing akan diterbitkan pada awal Juli 2026. Ini akan memicu siklus pengpatchan dalam jumlah besar di seluruh sistem operasi, browser, library kriptografi, dan perangkat lunak infrastruktur utama. Direktor keamanan yang belum memperluas saluran patch mereka, mengubah cakupan program bug bounty mereka, dan membangun skor ketergantungan pada saat itu akan menghadapi gelombang tersebut tanpa persiapan. Juli bukanlah acara pengungkapan. Ini adalah tsunami patch.
Apa yang harus disampaikan kepada dewan
Setiap direktur keamanan menyampaikan kepada dewan bahwa “kami telah memindai semuanya.” Merritt Baer, CSO di Enkrypt AI dan mantan Deputy CISO di AWS, mengatakan kepada VentureBeat bahwa pernyataan itu tidak dapat dipertahankan tanpa kualifikasi setelah adanya Mythos.
“Apa yang sebenarnya dimaksudkan oleh para pemimpin keamanan adalah: kami telah memindai secara menyeluruh untuk apa yang alat kami ketahui,” kata Baer. “Itu adalah klaim yang sangat berbeda.”
Baer menyarankan untuk membingkai risiko residu untuk dewan di sekitar tiga tingkatan: known-knowns (kelas kerentanan yang secara andal terdeteksi oleh sistem), known-unknowns (kelas yang diketahui ada tetapi alat hanya mencakup sebagian, seperti kesalahan logika stateful dan kebingungan batas autentikasi), serta unknown-unknowns (kerentanan yang muncul dari komposisi, bagaimana komponen aman berinteraksi dengan cara yang tidak aman). “Inilah yang ditangkap oleh Mythos,” ungkap Baer.
Pernyataan di tingkat dewan yang disarankan oleh Baer adalah: “Kami memiliki kepercayaan tinggi dalam mendeteksi kelas kerentanan yang diketahui dan terpisah. Risiko residu kami terkonsentrasi pada kesalahan lintas fungsi, multi-langkah, dan komposisional yang lolos dari pemindai titik tunggal. Kami sedang aktif berinvestasi dalam kemampuan yang dapat meningkatkan ambang deteksi itu.”
Terkait ketergantungan, Baer juga langsung menyampaikan. “Ketergantungan harus menjadi dimensi pemeringkatan kelas satu,” ujarnya. “CVSS dibangun untuk memberi skor pada kerentanan atomik. Mythos telah mengungkap bahwa risiko semakin berbentuk graf, bukan momen di satu waktu.” Baer menguraikan tiga perubahan yang perlu dilakukan program keamanan: dari pemeringkatan berdasarkan keparahan menjadi jalur eksploitabilitas, dari daftar kerentanan menjadi graf kerentanan yang memodelkan hubungan antar identitas, aliran data, dan izin, serta dari SLA remediasi menjadi gangguan jalur, di mana memperbaiki node yang tidak berfungsi dalam rantai menjadi prioritas dibandingkan memperbaiki poin CVSS tertinggi.
“Mythos bukan hanya menemukan bug yang terlewat,” tegas Baer. “Ia membantah asumsi bahwa kerentanan adalah independen. Program keamanan yang tidak beradaptasi, dari pemikiran cakupan ke pemikiran interaksi, akan terus melaporkan dashboard hijau sambil duduk di jalur serangan merah.”

