Model bahasa besar (LLM) terus mengalami kendala terkait “halusinasi,” yang menjadi penghalang utama dalam penerapan aplikasi bisnis dunia nyata. Mengurangi kesalahan ini memang rumit, memaksa pengembang model untuk menavigasi trade-off ketat di mana menghilangkan kesalahan faktual sering kali mengorbankan jawaban yang valid.
Dalam sebuah makalah terbaru, para peneliti dari Google memperkenalkan konsep “ketidakpastian yang setia,” sebuah teknik metakognisi yang menyelaraskan respons model dengan kepercayaan dirinya. Penyesuaian ini memungkinkan model untuk menawarkan hipotesis yang lebih tepat, seperti “tebakan terbaik saya adalah,” daripada kembali ke positif-negatif yang tidak membantu.
Dalam aplikasi AI otonom di dunia nyata, kesadaran metakognitif ini menjadi lapisan kontrol penting. Ini memberi kekuatan pada sistem otonom untuk menentukan kapan pengetahuannya cukup dan kapan harus mengaktifkan alat eksternal atau API pencarian untuk mengatasi kekurangan.
Pajak utilitas dari strategi mitigasi saat ini
Memahami mengapa LLM mengalami halusinasi terletak pada pemisahan dua kemampuan: model yang mengetahui fakta dibandingkan dengan mengetahui apa yang diketahui. Secara historis, peningkatan faktualitas dalam AI banyak berasal dari memperluas batas pengetahuan, yaitu para pengembang hanya mengisi lebih banyak fakta ke dalam parameter model dengan skala yang lebih besar dan lebih banyak data pelatihan.
Namun, memperluas pengetahuan model tidak serta merta memperbaiki kesadaran batasnya, yaitu kemampuan untuk membedakan yang diketahui dari yang tidak diketahui dan mengenali batasan diri.
“Ada dua cara umum untuk meningkatkan faktualitas LLM,” jelas Gal Yona, Ilmuwan Peneliti di Google dan salah satu penulis makalah tersebut, kepada VentureBeat. Cara pertama adalah melanjutkan pengajaran fakta kepada model. Namun, Yona mencatat, “kapasitas model terbatas dan pengetahuan jangka panjang secara efektif tak terbatas.”
Setelah model mencapai batas ini, harapannya adalah mereka tahu apa yang tidak mereka ketahui dan memilih untuk tidak menjawab. Namun, ini sangat sulit bagi LLM.
“Ini mengapa kebanyakan upaya praktis untuk mengurangi halusinasi melalui berbagai intervensi tidak benar-benar sampai pada penerapan,” jelas Yona. “Mereka memang mengurangi halusinasi, tetapi juga mengurangi utilitas, karena model akhirnya menolak menjawab pertanyaan yang sebenarnya mereka ketahui.”
Ketidakmampuan untuk membedakan antara yang diketahui dan tidak diketahui menciptakan apa yang disebut penulis makalah sebagai “pajak utilitas.” Memaksakan standar nol halusinasi memaksa model untuk tidak menjawab setiap kali mereka merasa sedikit tidak yakin, membuang sejumlah besar informasi yang sepenuhnya valid. Misalnya, penulis menunjukkan bahwa mengurangi tingkat kesalahan 25% menjadi target ketat 5% memaksa pengembang untuk membuang 52% dari jawaban yang benar dari model.
Memperlakukan semua kesalahan sebagai halusinasi memaksa sistem perusahaan untuk memilih antara keandalan dan keterbantuan. Para pengembang aplikasi umumnya enggan membayar pajak utilitas besar ini dan membuat model mereka tidak berguna.
Akibatnya, mereka mengoptimalkan sistem untuk memprioritaskan cakupan, memaksa model untuk beroperasi dalam keadaan di mana mereka terus menghasilkan halusinasi yang percaya diri.
Mengubah halusinasi menjadi kesalahan yang percaya diri
Untuk melewati pajak utilitas ini, para peneliti mengusulkan agar tidak memperlakukan setiap kesalahan faktual sebagai halusinasi. Sebagai gantinya, mereka mengganti halusinasi dengan “kesalahan percaya diri,” yaitu informasi yang salah yang disampaikan secara otoritatif tanpa kualifikasi yang sesuai.
Pendekatan halus ini menghilangkan dikotomi ketat “jawaban atau abstain” dan memungkinkan model untuk mengekspresikan ketidakpastiannya.
Dalam kerangka baru ini, jika model melakukan kesalahan faktual tetapi menyampaikan responsnya dengan benar (misalnya, dengan menyatakan, “Saya tidak sepenuhnya yakin, tetapi saya pikir…”), maka itu bukanlah halusinasi. Itu hanya hipotesis yang ditawarkan kepada pengguna untuk dipertimbangkan. Dengan mengekspresikan ketidakpastian, AI mempertahankan utilitasnya—membagikan apapun pengetahuan parsial atau yang mungkin ia miliki—tanpa melanggar kepercayaan pengguna.
Namun, jika asisten AI membatasi semua responsnya dengan pernyataan penyangkalan, pengguna terpaksa memeriksa ulang semuanya, yang sepenuhnya mengalahkan tujuan alat tersebut.
Solusi yang diusulkan para peneliti adalah “ketidakpastian yang setia.” Pendekatan ini membutuhkan penyelarasan ketidakpastian linguistik model, atau kata-kata yang digunakannya untuk mengekspresikan keraguan, dengan ketidakpastian intrinsik, yaitu keyakinan statistik internalnya terhadap jawaban spesifik tersebut. Ini memastikan model hanya menghindar ketika keadaan internalnya benar-benar mencerminkan informasi yang bertentangan atau memiliki probabilitas rendah.
Ketidakpastian yang setia membentuk inti dari “metakognisi,” kemampuan AI untuk menyadari ketidakpastiannya sendiri dan bertindak berdasarkan hal itu. Untuk memahami ini secara praktis, pertimbangkan contoh intuitif dari berkonsultasi dengan dokter. Kita tidak mempercayai dokter karena mereka tahu segalanya. Kita percaya pada mereka karena mereka dapat membedakan dengan tegas antara diagnosis yang percaya diri (“Anda memiliki patah tulang”) dan hipotesis yang teredukasi (“Mungkin ini keseleo, tetapi mari kita lakukan beberapa tes”).
Dampak praktis untuk AI perusahaan
Dengan kerangka baru ini, kesalahan di mana model benar-benar percaya tetapi secara faktual salah dikategorikan sebagai “kesalahan jujur.” Ini menjadikan ekspansi pengetahuan (pelatihan model dengan lebih banyak data) dan ketidakpastian yang setia sebagai usaha yang saling melengkapi. Ekspansi pengetahuan mendorong batas pengetahuan mutlak ke luar untuk meminimalkan kesalahan jujur, sementara ketidakpastian yang setia secara jujur mengomunikasikan di mana batasan tersebut saat ini berada.
Pemikiran baru ini memiliki implikasi penting untuk aplikasi otonom. Peralihan ke AI otonom mungkin membuatnya tampak bahwa mengetahui apa yang tidak diketahui model adalah berlebihan, karena model dapat dengan mudah mencari database eksternal. Namun, akses ke alat eksternal sebenarnya memperkuat kebutuhan akan ketidakpastian yang setia. Dalam sistem otonom, metakognisi menjadi lapisan kontrol pusat yang mengatur seluruh sistem.
Alat eksternal menyelesaikan masalah penyimpanan karena model tidak perlu mengkodekan setiap fakta ke dalam parameternya. Namun, ini memperkenalkan masalah kontrol baru: mengelola kapan harus mengambil informasi, memverifikasi fakta, dan mengatur alat eksternal ini. Tanpa ketidakpastian yang setia, sebuah agen pada dasarnya berfungsi tanpa panduan dan harus bergantung pada heuristik statis eksternal atau rangka yang terlalu rumit.
“Model mungkin mencari sesuatu yang sebenarnya sudah mereka ketahui dengan percaya diri—memboroskan latensi dan biaya tanpa mendapatkan keuntungan. Atau sebaliknya: mereka memberikan jawaban percaya diri dari ingatan saat seharusnya melakukan pencarian, menghasilkan keluaran yang tampaknya benar tetapi salah,” kata Yona. AI yang ada saat ini berusaha menyelesaikan ini secara eksternal dengan klasifikasi kueri atau aturan pencarian yang selalu ada, tetapi Yona mencatat bahwa ini “statis dan rentan.” Dengan menggunakan ketidakpastian intrinsiknya untuk mengatur perilakunya sendiri, agen secara dinamis mengoptimalkan penggunaan alatnya, memilih untuk mengaktifkan alat pencarian hanya ketika keyakinan internalnya benar-benar rendah.
Selain menentukan kapan harus mencari, ketidakpastian yang setia sangat penting untuk mengevaluasi hasil pencarian. Jika alat mengembalikan informasi berkualitas rendah atau tidak terduga, agen metakognitif tidak akan menerima begitu saja segala yang muncul di jendela konteksnya. Sebaliknya, ia menggunakan kesadaran ketidakpastiannya untuk menimbang sinyal eksternal yang diperoleh melawan pengetahuan internalnya sendiri. Ini mencegah perilaku menyanjung di mana sistem mungkin mempercayai sumber eksternal yang bertentangan dengan pengetahuan yang sebenarnya sudah diketahui.
Paradoks bootstrapping: Masalah dalam mengajarkan ketidakpastian
Bagi para pengembang perusahaan, mencapai ketidakpastian yang setia ini lebih penuh tantangan daripada yang terlihat. Ini memerlukan pengajaran model untuk memahami sintaksis ketidakpastian melalui penyempurnaan halus yang terawasi. Karena model yang telah dilatih sebelumnya sebagian besar diberi teks otoritatif, mereka harus diajari secara eksplisit untuk mengatakan hal-hal seperti, “Saya tidak sepenuhnya yakin, tetapi saya pikir VentureBeat didirikan pada…”
Namun, penyempurnaan halus ini memperkenalkan “paradoks bootstrapping.” Berbeda dengan dataset pelatihan standar di mana “jawaban yang benar” sama terlepas dari modelnya, kebenaran untuk ketidakpastian adalah basis pengetahuan dinamis model itu sendiri.
“Ada masalah: ekspresi ‘benar’ dari ketidakpastian secara inheren dinamis, karena bergantung pada apa yang diketahui atau tidak diketahui model tertentu ini pada titik pelatihan tertentu,” kata Yona. “Jika Anda melatih model pada label yang mengatakan ‘saya tidak tahu X’, tetapi model sebenarnya tahu X, Anda telah mengajarinya untuk berhalusinasi ketidakpastian… Data latih adalah statis, tetapi targetnya bergerak, dan itu adalah ketegangan mendasar yang harus dihadapi oleh tim.”
Jalan menuju AI yang sadar diri
Bagi perusahaan yang ingin menerapkan kemampuan ini tanpa perlu melatih ulang yang mahal, teknik prompt menjadi titik masuk yang paling mudah diakses. “Rekayasa prompt sudah menjadi sesuatu yang banyak dilakukan oleh insinyur saat ini, ini memberikan jalur dengan gesekan terendah untuk meningkatkan perilaku metakognitif saat ini,” kata Yona. Pengembang perusahaan dapat menjelajahi kerangka kerja seperti MetaFaith, sebuah proyek sumber terbuka yang sebelumnya ditulis bersama Yona, untuk mulai menerapkan prompt metakognitif ke model yang sudah ada.
Namun, Yona memperingatkan bahwa “masih ada ruang yang substansial yang tidak dapat diatasi hanya dengan prompting,” yang berarti industri pada akhirnya akan perlu mengandalkan pembelajaran penguatan yang canggih untuk memasukkan metakognisi dengan mendalam ke dalam pelatihan model.
Akhirnya, saat perusahaan beralih dari aplikasi obrolan yang terisolasi ke alur kerja multi-agen yang kompleks, kesadaran diri akan menjadi prasyarat penting untuk otonomi yang dapat diandalkan. Namun, mengevaluasi apakah model benar-benar memiliki kesadaran ini tetap menjadi tantangan teknis yang mendalam.
“Bagaimana Anda benar-benar mengevaluasi apakah model dapat merasakan keadaan internalnya?” tanya Yona. “Bahkan dalam diri manusia, sulit untuk mendefinisikan atau memisahkan kemampuan ‘pemantauan diri yang nyata’ dari ketergantungan yang mampu pada proksi. Kami menghadapi tantangan yang sama dengan LLM: model mungkin belajar meniru gaya ketidakpastian tanpa benar-benar merasakan keadaan internalnya. Mengembangkan kerangka evaluasi yang dapat membedakan ini adalah salah satu masalah terbuka paling penting di bidang ini.”

