Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > Model AI Frontier Tak Hanya Menghapus Konten Dokumen — Mereka Menulis Ulang, dan Kesalahan Nyaris Tak Terdeteksi
Bisnis

Model AI Frontier Tak Hanya Menghapus Konten Dokumen — Mereka Menulis Ulang, dan Kesalahan Nyaris Tak Terdeteksi

Keenan
Terakhir diperbarui: 14 Mei 2026 4:17 AM
Oleh
Keenan
10 Menit Baca
Bagikan
Model AI Frontier Tak Hanya Menghapus Konten Dokumen — Mereka Menulis Ulang, dan Kesalahan Nyaris Tak Terdeteksi
Bagikan

Seiring dengan perkembangan kemampuan model bahasa besar, banyak pengguna yang tergoda untuk mendelegasikan tugas-tugas pengetahuan kepada model tersebut, di mana mereka memproses dokumen atas nama pengguna dan memberikan hasil akhir. Namun, seberapa jauh kita dapat mempercayai model ini untuk tetap setia pada konten dokumen kita saat harus melakukan iterasi melalui dokumen tersebut beberapa kali?

Table of Content
  • Memahami mekanisme pekerjaan yang didelegasikan
  • Menguji model-model canggih dalam relai
  • Pemeriksaan kenyataan untuk perusahaan otonom

Sebuah studi baru dari peneliti di Microsoft menunjukkan bahwa model bahasa besar secara diam-diam merusak dokumen yang mereka kerjakan dengan memperkenalkan kesalahan. Para peneliti ini mengembangkan tolak ukur yang mensimulasikan alur kerja otonom multi-langkah di 52 domain profesional, menggunakan metode yang secara otomatis mengukur seberapa banyak konten yang menurun seiring waktu.

Temuan mereka menunjukkan bahwa bahkan model-model terbaik yang ada bisa merusak rata-rata 25% dari konten dokumen menjelang akhir alur kerja tersebut. Menyediakan alat agen atau dokumen pengalih yang realistis justru memperburuk performa model.

Ini menjadi peringatan bahwa meskipun ada tekanan semakin besar untuk mengotomatisasi pekerjaan pengetahuan, model bahasa saat ini belum sepenuhnya dapat diandalkan untuk tugas-tugas tersebut.

Memahami mekanisme pekerjaan yang didelegasikan

Studi Microsoft ini berfokus pada “pekerjaan yang didelegasikan,” paradigma baru di mana pengguna membiarkan model bahasa besar menyelesaikan tugas pengetahuan atas nama mereka dengan menganalisis dan memodifikasi dokumen.

Salah satu contoh mencolok dari paradigma ini adalah vibe coding, di mana pengguna mendelegasikan pengembangan perangkat lunak dan pengeditan kode kepada AI. Namun, alur kerja yang didelegasikan ini menjangkau jauh lebih luas daripada pemrograman. Dalam akuntansi, misalnya, seorang pengguna dapat memberikan buku besar yang padat dan menginstruksikan model untuk membagi dokumen tersebut menjadi file-file terpisah yang diorganisir berdasarkan kategori pengeluaran tertentu.

Karenanya, karena pengguna mungkin tidak memiliki waktu atau keahlian khusus untuk meninjau setiap modifikasi yang dilakukan AI, delegasi sering kali bergantung pada kepercayaan. Pengguna berharap model dapat menyelesaikan tugas dengan setia tanpa memperkenalkan kesalahan yang tidak terperiksa, penghapusan yang tidak sah, atau halusinasi dalam dokumen.

Untuk mengukur seberapa jauh sistem AI bisa dipercaya dalam alur kerja didelegasikan yang diperpanjang dan iteratif, para peneliti mengembangkan tolok ukur DELEGATE-52. Tolok ukur ini terdiri dari 310 lingkungan kerja yang mencakup 52 domain profesional yang beragam, termasuk akuntansi keuangan, rekayasa perangkat lunak, kristalografi, dan notasi musik.

Read more  Harga Penyimpanan Melonjak, CPU Diprediksi Ikut Tertekan - Pembuat PC Gaming Peringatkan 'Krisis CPU Semakin Serius'

Setiap lingkungan kerja bergantung pada dokumen teks awal yang berkisar antara 2.000 hingga 5.000 token. Bersama dengan dokumen awal, lingkungan kerja ini juga mencakup lima hingga sepuluh tugas penyuntingan yang kompleks dan tidak sepele.

Pemberian nilai pada proses penyuntingan multi-langkah yang kompleks biasanya memerlukan tinjauan manusia yang mahal. DELEGATE-52 menghindari hal ini dengan menggunakan metode simulasi “rilai bolak-balik” yang mengevaluasi jawaban tanpa memerlukan solusi acuan yang di-annotasi manusia. Pendekatan ini terinspirasi oleh teknik backtranslation yang digunakan dalam evaluasi terjemahan mesin, di mana model AI diminta untuk menerjemahkan dokumen dari satu bahasa ke bahasa lain dan kembali, untuk melihat seberapa sempurna ia dapat mereproduksi versi aslinya.

Setiap tugas edit dalam DELEGATE-52 dirancang untuk sepenuhnya dapat dibalik, menggabungkan instruksi maju dengan invers yang tepat. Misalnya, instruksi untuk membagi buku besar ke dalam file terpisah berdasarkan kategori pengeluaran dipasangkan dengan instruksi untuk menggabungkan semua file kategori kembali menjadi satu buku besar.

Dalam komentar yang diberikan kepada VentureBeat, Philippe Laban, Peneliti Senior di Microsoft Research dan co-author makalah tersebut, menjelaskan bahwa ini bukan sekadar tes untuk melihat apakah AI dapat menekan tombol “mundur.” Karena pekerja manusia tidak dapat dipaksa untuk “melupakan” tugas yang baru saja mereka lakukan, evaluasi bolak-balik ini sangat cocok untuk AI. Dengan memulai sesi percakapan baru, para peneliti memaksa model untuk mencoba tugas invers sepenuhnya secara independen.

Para peneliti menjelaskan bahwa model dalam eksperimen mereka tidak tahu apakah tugas itu adalah langkah maju atau mundur dan tidak menyadari desain eksperimen secara keseluruhan. Mereka hanya mencoba setiap tugas dengan teliti di setiap langkah.

Menguji model-model canggih dalam relai

Untuk memahami bagaimana berbagai arsitektur dan skala menangani pekerjaan yang didelegasikan, para peneliti menguji 19 model bahasa berbeda dari OpenAI, Anthropic, Google, Mistral, xAI, dan Moonshot. Eksperimen utama mensimulasikan 20 interaksi penyuntingan berturut-turut.

Di semua model, dokumen mengalami penurunan rata-rata sebanyak 50% di akhir simulasi. Bahkan model-model tercanggih dalam eksperimen ini, khususnya Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4, merusak rata-rata 25% dari konten dokumen.

Read more  Inilah Sektor-sektor di Mana Pekerjaan Bertumbuh dan Menyusut di Ekonomi Saat Ini

Dari 52 domain profesional yang diuji, Python adalah satu-satunya di mana sebagian besar model mencapai status siap dengan skor 98% atau lebih. Model-model ini unggul dalam tugas-tugas pemrograman tetapi sangat kesulitan dalam bahasa alami dan domain spesifik seperti fiksi, pernyataan keuangan, atau resep masakan. Model terbaik secara keseluruhan, Gemini 3.1 Pro, hanya dinyatakan siap untuk pekerjaan yang didelegasikan di 11 dari 52 domain.

Menariknya, kerusakan tidak disebabkan oleh akumulasi kesalahan kecil. Sebanyak 80% dari total degradasi disebabkan oleh kegagalan kritis yang sporadis, di mana model mendadak menghapus setidaknya 10% dari konten dokumen. Model-model canggih tidak selalu menghindari kesalahan kecil lebih baik; mereka hanya menunda kegagalan bencana ini ke ronde selanjutnya.

Observasi penting lainnya adalah bahwa ketika model yang lebih lemah gagal, degradasi mereka terutama berasal dari penghapusan konten. Namun, ketika model-model canggih gagal, mereka aktif merusak konten yang sudah ada. Teks masih ada, tetapi telah terdistorsi atau dihalusinasikan, sehingga sulit bagi pengawas manusia untuk mendeteksi kesalahan tersebut.

Menariknya, memberikan model dengan alat generik untuk eksekusi kode dan akses baca/tulis file justru memperburuk performa mereka, menambah rata-rata 6% lebih banyak penurunan. Laban menjelaskan bahwa kegagalan terletak pada ketergantungan pada alat generik nesus domain tertentu.

Laban berpendapat bahwa model tidak memiliki kemampuan untuk menulis program yang efektif secara langsung, yang bisa memanipulasi file di berbagai domain tanpa kesalahan. Ketika mereka tidak bisa melakukan sesuatu secara programatis, model akan kembali membaca dan menulis ulang seluruh file, yang kurang efisien dan lebih rawan kesalahan. Solusi bagi pengembang adalah membangun alat yang khusus (seperti fungsi tertentu untuk menghitung atau memindahkan entri dalam file .ledger) untuk menjaga agar agen tetap pada jalurnya.

Degradasi juga meningkat seiring dokumen semakin besar atau semakin banyak file pengalih ditambahkan ke ruang kerja. Untuk tim perusahaan yang berinvestasi besar dalam pengembangan pembangkit listrik berbasis pemulihan (RAG), dokumen pengalih ini menjadi peringatan langsung tentang biaya kumulatif dari konteks yang berantakan. Sementara konteks yang berisik mungkin menyebabkan penurunan performa minimum 1% setelah hanya dua interaksi, penurunan tersebut bisa terakumulasi menjadi 2-8% dalam simulasi panjang.

Read more  Wikipedia Batasi Penggunaan AI dalam Penulisan Artikel

Untuk komunitas pemulihan, Laban menyarankan agar jalur RAG dievaluasi dalam alur kerja multi-langkah, bukan hanya tolok ukur pemulihan satu langkah semata. Pengukuran satu langkah secara sistematis meremehkan kerugian dari pemulihan yang tidak tepat.

Pemeriksaan kenyataan untuk perusahaan otonom

Temuan dari tolok ukur DELEGATE-52 menawarkan penilaian penting terhadap hype saat ini seputar agen AI otonom penuh.

Desain tolok ukur ini juga menunjukkan sebuah batasan praktis: karena model-model dapat mempertahankan catatan yang bersih selama beberapa langkah sebelum mengalami kegagalan bencana mendadak, tinjauan manusia yang bertahap diperlukan — bukan hanya satu pemeriksaan akhir. Laban menyarankan untuk membangun aplikasi AI di sekitar tugas yang pendek dan transparan, bukan agen kompleks jangka panjang. Ini menjaga implikasi aksi tanpa penulis menyampaikan resepnya.

Bagi organisasi yang ingin menerapkan agen otonom secara aman saat ini, metodologi DELEGATE-52 menyediakan cetak biru praktis untuk menguji saluran data internal. Laban menjelaskan bahwa “tim perusahaan yang ingin mengadopsi kerangka kerja ini perlu membangun tiga komponen: (a) serangkaian tugas penyuntingan reversible yang merepresentasikan alur kerja mereka, (b) parser yang mengubah dokumen domain mereka menjadi representasi yang terstruktur, dan (c) fungsi kemiripan yang membandingkan dua representasi yang telah diparsir.” Tim bahkan tidak perlu membangun parser dari awal; tim riset Microsoft berhasil memanfaatkan pustaka parsing yang sudah ada untuk 30 dari 52 domain yang diuji.

Laban optimis mengenai laju perbaikan. “Kemajuan nyata dan cepat. Melihat keluarga GPT saja, model-model ini mengubah skor dari di bawah 20% menjadi sekitar 70% dalam waktu 18 bulan,” kata Laban. “Jika trajektori ini berlanjut, model-model segera dapat mencapai nilai saturasi pada DELEGATE-52.”

Namun, Laban memperingatkan bahwa DELEGATE-52 sengaja kecil dibandingkan dengan lingkungan perusahaan yang besar. Bahkan ketika model-model dasar pasti menguasai tolok ukur ini, panjangnya ekor unik data dan alur kerja perusahaan berarti organisasi akan selalu perlu berinvestasi dalam alat khusus untuk menjaga agen otonom mereka tetap dapat diandalkan.

DITANDAI:breaking
Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya Jawaban dan Petunjuk Quordle untuk Minggu, 19 April (Game #1546) Petunjuk dan Jawaban Quordle untuk Rabu, 13 Mei (Permainan #1570)
- Advertisement -
Ad image

Don't Miss

VECT Dipasarkan Sebagai Ransomware, Tapi Ternyata Berfungsi Sebagai Alat Penghancur Data: Ahli Ingatkan, Lindungi File Anda Sekarang!
VECT Dipasarkan Sebagai Ransomware, Tapi Ternyata Berfungsi Sebagai Alat Penghancur Data: Ahli Ingatkan, Lindungi File Anda Sekarang!
Tech
GPU Palsu Semakin Canggih, Ahli Perbaikan Pun Tertipu oleh Nvidia RTX 4090 — Waspadai Penipuan Ini!
GPU Palsu Semakin Canggih, Ahli Perbaikan Pun Tertipu oleh Nvidia RTX 4090 — Waspadai Penipuan Ini!
Tech
Wispr Flow Tantang Pasar Voice AI di India dengan Strategi Berani!
Wispr Flow Tantang Pasar Voice AI di India dengan Strategi Berani!
Bisnis
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Aktor dan Naskah yang Dihasilkan AI Tak Lagi Layak Masuk Nominasi Oscar
Bisnis

Aktor dan Naskah yang Dihasilkan AI Tak Lagi Layak Masuk Nominasi Oscar

Keenan
3 Mei 2026
Jaksa Agung Florida Selidiki OpenAI atas Dugaan Keterkaitan dengan Penembakan di FSU
Bisnis

Jaksa Agung Florida Selidiki OpenAI atas Dugaan Keterkaitan dengan Penembakan di FSU

Keenan
10 April 2026
China Raup US$500 Juta Per Jam Berkat Kecerdasan Buatan untuk Ekspor
Market

China Raup US$500 Juta Per Jam Berkat Kecerdasan Buatan untuk Ekspor

Reihan
12 Mei 2026
Investasi Cerdas: Saham Baja AS Ini Siap Untung dari Naiknya Tarif Menurut Goldman
Market

Investasi Cerdas: Saham Baja AS Ini Siap Untung dari Naiknya Tarif Menurut Goldman

Reihan
5 April 2026
Solana Mendekati Puncak Pola Segitiga: Siap Meluncur dengan Lonjakan 10%?
Kripto

Solana Mendekati Puncak Pola Segitiga: Siap Meluncur dengan Lonjakan 10%?

Rangga
28 April 2026
3 Pelajaran Penting untuk Wirausaha Pemula yang Harus Diketahui
Bisnis

3 Pelajaran Penting untuk Wirausaha Pemula yang Harus Diketahui

Keenan
8 Mei 2026
26 Ciri Anda Akan Menjadi Jutawan di Masa Depan!
Bisnis

26 Ciri Anda Akan Menjadi Jutawan di Masa Depan!

Keenan
3 April 2026
CEO YouTube: YouTuber Terbaik Akan Selalu Menyulap Konten Dari Rumah!
Bisnis

CEO YouTube: YouTuber Terbaik Akan Selalu Menyulap Konten Dari Rumah!

Keenan
30 Maret 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Market
  • Bisnis
  • Kripto
  • Tech

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?