Model AI Frontier Tak Hanya Menghapus Konten Dokumen — Mereka Menulis Ulang, dan Kesalahan Nyaris Tak Terdeteksi

Seiring dengan perkembangan kemampuan model bahasa besar, banyak pengguna yang tergoda untuk mendelegasikan tugas-tugas pengetahuan kepada model tersebut, di mana mereka memproses dokumen atas nama pengguna dan memberikan hasil akhir. Namun, seberapa jauh kita dapat mempercayai model ini untuk tetap setia pada konten dokumen kita saat harus melakukan iterasi melalui dokumen tersebut beberapa kali?

Table of Content

Memahami mekanisme pekerjaan yang didelegasikan
Menguji model-model canggih dalam relai
Pemeriksaan kenyataan untuk perusahaan otonom

Sebuah studi baru dari peneliti di Microsoft menunjukkan bahwa model bahasa besar secara diam-diam merusak dokumen yang mereka kerjakan dengan memperkenalkan kesalahan. Para peneliti ini mengembangkan tolak ukur yang mensimulasikan alur kerja otonom multi-langkah di 52 domain profesional, menggunakan metode yang secara otomatis mengukur seberapa banyak konten yang menurun seiring waktu.

Temuan mereka menunjukkan bahwa bahkan model-model terbaik yang ada bisa merusak rata-rata 25% dari konten dokumen menjelang akhir alur kerja tersebut. Menyediakan alat agen atau dokumen pengalih yang realistis justru memperburuk performa model.

Ini menjadi peringatan bahwa meskipun ada tekanan semakin besar untuk mengotomatisasi pekerjaan pengetahuan, model bahasa saat ini belum sepenuhnya dapat diandalkan untuk tugas-tugas tersebut.

Memahami mekanisme pekerjaan yang didelegasikan

Studi Microsoft ini berfokus pada “pekerjaan yang didelegasikan,” paradigma baru di mana pengguna membiarkan model bahasa besar menyelesaikan tugas pengetahuan atas nama mereka dengan menganalisis dan memodifikasi dokumen.

Salah satu contoh mencolok dari paradigma ini adalah vibe coding, di mana pengguna mendelegasikan pengembangan perangkat lunak dan pengeditan kode kepada AI. Namun, alur kerja yang didelegasikan ini menjangkau jauh lebih luas daripada pemrograman. Dalam akuntansi, misalnya, seorang pengguna dapat memberikan buku besar yang padat dan menginstruksikan model untuk membagi dokumen tersebut menjadi file-file terpisah yang diorganisir berdasarkan kategori pengeluaran tertentu.

Karenanya, karena pengguna mungkin tidak memiliki waktu atau keahlian khusus untuk meninjau setiap modifikasi yang dilakukan AI, delegasi sering kali bergantung pada kepercayaan. Pengguna berharap model dapat menyelesaikan tugas dengan setia tanpa memperkenalkan kesalahan yang tidak terperiksa, penghapusan yang tidak sah, atau halusinasi dalam dokumen.

Untuk mengukur seberapa jauh sistem AI bisa dipercaya dalam alur kerja didelegasikan yang diperpanjang dan iteratif, para peneliti mengembangkan tolok ukur DELEGATE-52. Tolok ukur ini terdiri dari 310 lingkungan kerja yang mencakup 52 domain profesional yang beragam, termasuk akuntansi keuangan, rekayasa perangkat lunak, kristalografi, dan notasi musik.

Setiap lingkungan kerja bergantung pada dokumen teks awal yang berkisar antara 2.000 hingga 5.000 token. Bersama dengan dokumen awal, lingkungan kerja ini juga mencakup lima hingga sepuluh tugas penyuntingan yang kompleks dan tidak sepele.

Pemberian nilai pada proses penyuntingan multi-langkah yang kompleks biasanya memerlukan tinjauan manusia yang mahal. DELEGATE-52 menghindari hal ini dengan menggunakan metode simulasi “rilai bolak-balik” yang mengevaluasi jawaban tanpa memerlukan solusi acuan yang di-annotasi manusia. Pendekatan ini terinspirasi oleh teknik backtranslation yang digunakan dalam evaluasi terjemahan mesin, di mana model AI diminta untuk menerjemahkan dokumen dari satu bahasa ke bahasa lain dan kembali, untuk melihat seberapa sempurna ia dapat mereproduksi versi aslinya.

Setiap tugas edit dalam DELEGATE-52 dirancang untuk sepenuhnya dapat dibalik, menggabungkan instruksi maju dengan invers yang tepat. Misalnya, instruksi untuk membagi buku besar ke dalam file terpisah berdasarkan kategori pengeluaran dipasangkan dengan instruksi untuk menggabungkan semua file kategori kembali menjadi satu buku besar.

Dalam komentar yang diberikan kepada VentureBeat, Philippe Laban, Peneliti Senior di Microsoft Research dan co-author makalah tersebut, menjelaskan bahwa ini bukan sekadar tes untuk melihat apakah AI dapat menekan tombol “mundur.” Karena pekerja manusia tidak dapat dipaksa untuk “melupakan” tugas yang baru saja mereka lakukan, evaluasi bolak-balik ini sangat cocok untuk AI. Dengan memulai sesi percakapan baru, para peneliti memaksa model untuk mencoba tugas invers sepenuhnya secara independen.

Para peneliti menjelaskan bahwa model dalam eksperimen mereka tidak tahu apakah tugas itu adalah langkah maju atau mundur dan tidak menyadari desain eksperimen secara keseluruhan. Mereka hanya mencoba setiap tugas dengan teliti di setiap langkah.

Menguji model-model canggih dalam relai

Untuk memahami bagaimana berbagai arsitektur dan skala menangani pekerjaan yang didelegasikan, para peneliti menguji 19 model bahasa berbeda dari OpenAI, Anthropic, Google, Mistral, xAI, dan Moonshot. Eksperimen utama mensimulasikan 20 interaksi penyuntingan berturut-turut.

Di semua model, dokumen mengalami penurunan rata-rata sebanyak 50% di akhir simulasi. Bahkan model-model tercanggih dalam eksperimen ini, khususnya Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4, merusak rata-rata 25% dari konten dokumen.

Dari 52 domain profesional yang diuji, Python adalah satu-satunya di mana sebagian besar model mencapai status siap dengan skor 98% atau lebih. Model-model ini unggul dalam tugas-tugas pemrograman tetapi sangat kesulitan dalam bahasa alami dan domain spesifik seperti fiksi, pernyataan keuangan, atau resep masakan. Model terbaik secara keseluruhan, Gemini 3.1 Pro, hanya dinyatakan siap untuk pekerjaan yang didelegasikan di 11 dari 52 domain.

Menariknya, kerusakan tidak disebabkan oleh akumulasi kesalahan kecil. Sebanyak 80% dari total degradasi disebabkan oleh kegagalan kritis yang sporadis, di mana model mendadak menghapus setidaknya 10% dari konten dokumen. Model-model canggih tidak selalu menghindari kesalahan kecil lebih baik; mereka hanya menunda kegagalan bencana ini ke ronde selanjutnya.

Observasi penting lainnya adalah bahwa ketika model yang lebih lemah gagal, degradasi mereka terutama berasal dari penghapusan konten. Namun, ketika model-model canggih gagal, mereka aktif merusak konten yang sudah ada. Teks masih ada, tetapi telah terdistorsi atau dihalusinasikan, sehingga sulit bagi pengawas manusia untuk mendeteksi kesalahan tersebut.

Menariknya, memberikan model dengan alat generik untuk eksekusi kode dan akses baca/tulis file justru memperburuk performa mereka, menambah rata-rata 6% lebih banyak penurunan. Laban menjelaskan bahwa kegagalan terletak pada ketergantungan pada alat generik nesus domain tertentu.

Laban berpendapat bahwa model tidak memiliki kemampuan untuk menulis program yang efektif secara langsung, yang bisa memanipulasi file di berbagai domain tanpa kesalahan. Ketika mereka tidak bisa melakukan sesuatu secara programatis, model akan kembali membaca dan menulis ulang seluruh file, yang kurang efisien dan lebih rawan kesalahan. Solusi bagi pengembang adalah membangun alat yang khusus (seperti fungsi tertentu untuk menghitung atau memindahkan entri dalam file .ledger) untuk menjaga agar agen tetap pada jalurnya.

Degradasi juga meningkat seiring dokumen semakin besar atau semakin banyak file pengalih ditambahkan ke ruang kerja. Untuk tim perusahaan yang berinvestasi besar dalam pengembangan pembangkit listrik berbasis pemulihan (RAG), dokumen pengalih ini menjadi peringatan langsung tentang biaya kumulatif dari konteks yang berantakan. Sementara konteks yang berisik mungkin menyebabkan penurunan performa minimum 1% setelah hanya dua interaksi, penurunan tersebut bisa terakumulasi menjadi 2-8% dalam simulasi panjang.

Untuk komunitas pemulihan, Laban menyarankan agar jalur RAG dievaluasi dalam alur kerja multi-langkah, bukan hanya tolok ukur pemulihan satu langkah semata. Pengukuran satu langkah secara sistematis meremehkan kerugian dari pemulihan yang tidak tepat.

Pemeriksaan kenyataan untuk perusahaan otonom

Temuan dari tolok ukur DELEGATE-52 menawarkan penilaian penting terhadap hype saat ini seputar agen AI otonom penuh.

Desain tolok ukur ini juga menunjukkan sebuah batasan praktis: karena model-model dapat mempertahankan catatan yang bersih selama beberapa langkah sebelum mengalami kegagalan bencana mendadak, tinjauan manusia yang bertahap diperlukan — bukan hanya satu pemeriksaan akhir. Laban menyarankan untuk membangun aplikasi AI di sekitar tugas yang pendek dan transparan, bukan agen kompleks jangka panjang. Ini menjaga implikasi aksi tanpa penulis menyampaikan resepnya.

Bagi organisasi yang ingin menerapkan agen otonom secara aman saat ini, metodologi DELEGATE-52 menyediakan cetak biru praktis untuk menguji saluran data internal. Laban menjelaskan bahwa “tim perusahaan yang ingin mengadopsi kerangka kerja ini perlu membangun tiga komponen: (a) serangkaian tugas penyuntingan reversible yang merepresentasikan alur kerja mereka, (b) parser yang mengubah dokumen domain mereka menjadi representasi yang terstruktur, dan (c) fungsi kemiripan yang membandingkan dua representasi yang telah diparsir.” Tim bahkan tidak perlu membangun parser dari awal; tim riset Microsoft berhasil memanfaatkan pustaka parsing yang sudah ada untuk 30 dari 52 domain yang diuji.

Laban optimis mengenai laju perbaikan. “Kemajuan nyata dan cepat. Melihat keluarga GPT saja, model-model ini mengubah skor dari di bawah 20% menjadi sekitar 70% dalam waktu 18 bulan,” kata Laban. “Jika trajektori ini berlanjut, model-model segera dapat mencapai nilai saturasi pada DELEGATE-52.”

Namun, Laban memperingatkan bahwa DELEGATE-52 sengaja kecil dibandingkan dengan lingkungan perusahaan yang besar. Bahkan ketika model-model dasar pasti menguasai tolok ukur ini, panjangnya ekor unik data dan alur kerja perusahaan berarti organisasi akan selalu perlu berinvestasi dalam alat khusus untuk menjaga agen otonom mereka tetap dapat diandalkan.