Dalam beberapa minggu terakhir, semakin banyak pengembang dan pengguna AI yang mengklaim bahwa model unggulan Anthropic kehilangan kemampuan yang dimilikinya. Pengguna di berbagai platform seperti GitHub, X, dan Reddit melaporkan fenomena yang mereka sebut sebagai “AI shrinkflation”—sebuah penurunan kemampuan di mana Claude tampak kurang mampu dalam penalaran jangka panjang, lebih rentan mengalami halusinasi, dan semakin boros dalam penggunaan token.
Kritikus menunjukkan adanya pergeseran perilaku yang dapat diukur, menyebutkan bahwa model ini telah beralih dari pendekatan “research-first” menuju gaya yang lebih malas yang disebut “edit-first,” sehingga tidak lagi dapat diandalkan untuk rekayasa yang kompleks.
Sementara perusahaan awalnya menolak klaim mengenai “nerfing” model untuk mengelola permintaan, bukti yang semakin banyak dari pengguna ternama dan benchmark pihak ketiga menciptakan kesenjangan kepercayaan yang signifikan.
Hari ini, Anthropic langsung menanggapi kekhawatiran ini dengan menerbitkan sebuah catatan teknis yang mengidentifikasi tiga perubahan di lapisan produk yang bertanggung jawab atas masalah kualitas yang dilaporkan.
“Kami sangat serius terhadap laporan tentang penurunan kualitas,” tulis Anthropic dalam blognya. “Kami tidak pernah secara sengaja menurunkan kualitas model kami, dan kami segera dapat memastikan bahwa API dan lapisan inferensi kami tidak terpengaruh.”
Anthropic mengklaim telah menyelesaikan masalah tersebut dengan mengembalikan perubahan pada upaya penalaran dan prompt verbosity, serta memperbaiki bug caching pada versi v2.1.116.
Bukti yang Meningkat tentang Penurunan Kualitas
Kontroversi ini mulai memuncak pada awal April 2026, didorong oleh analisis teknis mendalam dari komunitas pengembang. Stella Laurenzo, Direktur Senior di grup AI AMD, menerbitkan audit menyeluruh terhadap 6,852 file sesi Claude Code dan lebih dari 234,000 panggilan alat di GitHub, menunjukkan penurunan performa dibandingkan dengan penggunaannya sebelumnya.
Temuan ini menunjukkan bahwa kedalaman penalaran Claude menurun tajam, menyebabkan terjadinya loop penalaran dan kecenderungan untuk memilih “perbaikan paling sederhana” alih-alih yang benar.
Frustrasi yang diceritakan ini tampaknya diperkuat oleh benchmark pihak ketiga. BridgeMind melaporkan bahwa akurasi Claude Opus 4.6 turun dari 83.3% menjadi 68.3% dalam pengujian mereka, sehingga peringkatnya jatuh dari No. 2 ke No. 10.
Meskipun beberapa peneliti berargumen bahwa perbandingan benchmark spesifik ini cacat karena ruang lingkup pengujian yang berbeda, narasi bahwa Claude menjadi “lebih bodoh” menjadi bahan perbincangan viral. Pengguna juga melaporkan bahwa batas penggunaan mengering lebih cepat dari yang diharapkan, memicu kecurigaan bahwa Anthropic secara sengaja mengendorkan performa untuk mengelola permintaan yang melonjak.
Penyebabnya
Dalam catatan teknisnya, Anthropic menjelaskan bahwa meskipun bobot model yang mendasari tidak mengalami kemunduran, ada tiga perubahan spesifik pada “harness” di sekitar model yang secara tidak sengaja mengganggu performanya:
-
Upaya Penalaran Default: Pada 4 Maret, Anthropic mengubah upaya penalaran default dari
tinggimenjadisedanguntuk Claude Code guna mengatasi masalah latensi UI. Perubahan ini dimaksudkan agar antarmuka tidak terkesan “beku” saat model berpikir, tetapi menyebabkan penurunan kecerdasan yang nyata untuk tugas-tugas kompleks. -
Bug Logika Caching: Diluncurkan pada 26 Maret, optimasi caching yang dimaksudkan untuk memangkas “pemikiran” lama dari sesi yang tidak aktif mengandung bug kritis. Alih-alih menghapus riwayat pemikiran setelah satu jam tidak aktif, ia membersihkannya pada setiap giliran berikutnya, menyebabkan model kehilangan “memori jangka pendek” dan menjadi repetitif atau pelupa.
-
Batas Verbosity Prompt Sistem: Pada 16 April, Anthropic menambahkan instruksi pada prompt sistem untuk membatasi teks antara panggilan alat di bawah 25 kata dan respons akhir di bawah 100 kata. Upaya untuk mengurangi verbosity di Opus 4.7 ini berbalik, menyebabkan penurunan 3% dalam evaluasi kualitas pengkodean.
Dampak dan Langkah Pengamanan Masa Depan
Masalah kualitas ini melampaui CLI Claude Code, dengan dampak terhadap Claude Agent SDK dan Claude Cowork, meskipun Claude API tidak terpengaruh.
Anthropic mengakui bahwa perubahan ini membuat model tampak memiliki “lebih sedikit kecerdasan,” yang mereka akui bukanlah pengalaman yang seharusnya didapatkan pengguna.
Untuk memulihkan kepercayaan pengguna dan mencegah regresi di masa depan, Anthropic menerapkan beberapa perubahan operasional:
-
Penerapan Internal: Sebagian besar staf internal diwajibkan menggunakan versi publik Claude Code agar mereka mengalami produk seperti pengguna.
-
Suite Evaluasi yang Diperluas: Perusahaan sekarang akan menjalankan suite evaluasi per-model yang lebih luas dan “ablations” untuk setiap perubahan prompt sistem guna mengisolasi dampak dari instruksi spesifik.
-
Kontrol yang Lebih Ketat: Alat baru telah dibangun untuk memudahkan audit perubahan prompt, dan perubahan spesifik model akan secara ketat dibatasi untuk target yang dimaksudkan.
-
Kompensasi untuk Pelanggan: Untuk mengatasi limbah token dan gesekan performa akibat bug ini, Anthropic telah mengatur ulang batas penggunaan untuk semua pelanggan mulai 23 April.
Perusahaan berencana menggunakan akun baru @ClaudeDevs di X dan utas GitHub untuk memberikan penjelasan lebih dalam mengenai keputusan produk di masa depan dan menjaga dialog yang lebih transparan dengan basis pengembangnya.

