Agen AI Perusahaan Terus Gagal karena Lupa Pembelajaran yang Diperoleh

Table of Content

Keterbatasan RAG
Cara decision context graphs menjawab pertanyaan relevan
Agen belajar, bukan regresi
Melampaui ingatan “episodik”

Arsitektur RAG efektif dalam satu hal: menghadirkan dokumen yang relevan secara semantik. Namun, keterbatasan tampil di sini.

Sebuah kerangka kerja yang disebut decision context graph hadir untuk mengisi kekosongan ini dengan memberikan ingatan terstruktur, pemikiran yang sadar waktu, dan logika keputusan yang jelas. Rippletide, sebuah startup dalam ekosistem Neo4j, telah berhasil membangunnya. Kemampuan kuncinya: agen yang tidak regresif, mampu membekukan urutan tindakan yang telah divalidasi dan mengembangkannya seiring waktu.

â€œPoin kuncinya adalah non-regressivity: Bagaimana memastikan ketika agen menciptakan sesuatu yang baru, ia bisa membangun dari penemuan sebelumnya?â€ kata Yann Bilien, co-founder sekaligus kepala ilmuwan Rippletid.

Keterbatasan RAG

Konteks enterprise tersebar di berbagai alat ERP, log, basis data, tempat penyimpanan vektor, dan dokumen kebijakan. Alat AI generatif dapat mengambil data dari semua itu â€” melalui pencarian kata kunci, kueri SQL, atau jalur RAG penuh â€” tapi pengambilan data ini punya batasan.

Yang perlu dicatat, data yang diambil mungkin tidak relevan untuk keputusan yang dihadapi (yang bisa menyebabkan kebingungan) dan bahkan jika agen mengambil data yang tepat, mereka sering kekurangan panduan untuk membuat keputusan yang didukung oleh alasan yang kuat.

Artinya, RAG hanya mengambil dokumen, bukan konteks keputusan. â€œSemua orang memulai dengan RAG: Ambil dokumen relevan, masukkan ke dalam prompt, biarkan model menyelesaikannya,â€ ujar Wyatt Mayham dari Northwest AI Consulting.

Sementara itu baik untuk chatbot, pendekatan ini â€œlangsung bermasalahâ€ untuk agen yang perlu membuat keputusan dan mengambil tindakan, lanjutnya. â€œMasalah paling besar yang dihadapi pengembang adalah kesenjangan antara pengambilan dan penerapan.â€

Dokumen yang diambil tidak memberitahu agen apakah itu masih berlaku, apakah sudah digantikan, atau apakah ada aturan yang saling bertentangan. â€œAgen butuh konteks keputusan, bukan sekadar informasi,â€ jelas Mayham.

Di dunia konstruksi, ini mungkin berarti mengetahui bahwa pengecualian harga sudah kadaluarsa, bahwa kebijakan keselamatan hanya berlaku di yurisdiksi tertentu, atau bahwa prosedur operasional standar diperbarui sebulan lalu. â€œJika semua itu terlewat, agen bisa mengerjakan hal yang salah dengan percaya diri,â€ tambahnya.

Tanpa konteks keputusan yang terstruktur, agen menggabungkan aturan yang tidak kompatibel, menciptakan batasan untuk mengisi kekosongan, dan bergantung pada apa yang disebut Bilien sebagai “tebakan probabilistik atas data yang tidak terbatasi.” Kesalahan sulit untuk direproduksi karena pengembang tidak bisa melacak mengapa agen membuat pilihan tertentu.

Masalah kesalahan yang berkelanjutan juga nyata, kata Mayham: Tingkat kesalahan kecil per langkah menjadi â€œbencanaâ€ dalam alur kerja yang melibatkan banyak langkah. â€œItulah alasan utama mengapa sebagian besar agen enterprise tidak pernah keluar dari fase pilot,â€ ujarnya.

Cara decision context graphs menjawab pertanyaan relevan

Decision context graph menyelesaikan permasalahan ini dengan menyandikan peta terstruktur mengenai apa yang relevan, apa aturannya, dan kapan ia diterapkan.

Kerangka ini dioptimalkan untuk satu pertanyaan: “Dalam situasi ini, konteks mana yang berlaku saat ini?” Waktu dianggap sebagai dimensi utama; setiap aturan, keputusan, dan pengecualian discope berdasarkan kapan itu valid.

â€œTujuannya adalah untuk secara eksplisit mengatasi data yang hilang, tidak koheren, atau bertentangan saat membangun grafik untuk menghindari kesalahan probabilistik saat agen beroperasi,â€ ujar Bilien.

Sistem ini dibangun di atas tiga prinsip:

Keterapan: Logika disandikan secara eksplisit sehingga agen tahu aturan mana yang harus diingat dan diterapkan dalam situasi tertentu. Konteks dikembalikan hanya saat relevan dengan situasi.
Ingatan yang sadar waktu: Setiap aturan, keputusan, dan pengecualian discope dalam waktu. Ini memungkinkan agen untuk mempertimbangkan “Apa yang benar saat itu dibandingkan dengan apa yang benar sekarang,” kemudian mereproduksi atau menjelaskan keputusan mereka.
Jalur keputusan: Sistem ini dapat menjelaskan bagaimana ia beralih dari A ke B dan alasan di balik rasionalnya (misalnya, mengapa satu konteks dimasukkan dan yang lainnya tidak). Agen diberikan contoh “jalur keputusan” tentang bagaimana kasus serupa ditangani sebelumnya.

Pada tahap penyiapan, data tidak terstruktur diambil dan diolah menjadi ontologi: entitas apa yang ada, aturan apa yang berlaku, apa yang dihitung sebagai pengecualian. AI neuro-simbolik menangani pengenalan pola dan menyandikan logika formal yang dapat dibaca mesin. Seiring waktu, sistem memperbaiki basis pengetahuannya saat keputusan baru dibuat.

â€œNeuro-simbolik membawa dua bagian: bagian neuronal yang memberikan otonomi besar kepada agen dan bagian simbolik untuk mengurangi jumlah data yang dibutuhkan dan membawa kontrol,â€ jelas Bilien.

Agen diuji di waktu pembangunan (pra-produksi) untuk memvalidasi perilakunya atau mengidentifikasi perbaikan. Ini mengurangi risiko juga kebutuhan komputasi saat inferensi, catatnya.

Agen belajar, bukan regresi

Dalam hal non-regressivity, komponen kunci adalah menggabungkan kecerdasan (model) dan pengetahuan (dibagikan di antara agen), kata Bilien. Penting bahwa agen dapat mengeksplorasi; ketika mereka tidak tahu cara menyelesaikan tugas, mereka bisa mencoba berbagai kemungkinan, biasanya dalam lingkungan yang terkendali atau simulasi (seperti bot dukungan yang mencoba pola respons yang berbeda).

Setelah solusi dinilai memuaskan, grafik menyimpan urutan tindakan tersebut, ujar Bilien. Eksplorasi di masa mendatang kemudian dimulai dari “basis stabil perilaku yang telah divalidasi” untuk mencegah keterampilan baru yang diperoleh menimpa perilaku baik yang sebelumnya dipelajari.

Sebelum agen bertindak atau mempengaruhi pelanggan, ia memeriksa grafik: Apakah melanggar aturan? Apakah mengada-ada? Apakah tetap dalam batasan? Dapatkah ia menggeneralisasi solusi di seluruh kasus serupa?

Di level makro, sistem menilai hasil: Apakah perilaku meningkatkan kinerja jangka panjang? Apakah itu dapat digeneralisasi di antara konteks serupa? Apakah itu mempertahankan kemampuan sebelumnya?

â€œDeterminisme ini kunci agar agen dapat beroperasi dengan andal pada skala,â€ ungkap Bilien. Ini menghasilkan perilaku yang lebih konsisten, dapat diprediksi, dapat dijelaskan, serta memungkinkan kontrol dan audit yang lebih kuat.

â€œAnda ingin agen Anda bisa belajar sendiri ketika menghadapi sesuatu yang tidak mereka ketahui,â€ katanya. â€œAnda ingin mereka bisa mengeksplorasi dan menemukan solusi baru.â€

Melampaui ingatan “episodik”

Sementara tim awalnya mengira akan menerapkan RL di mana saja, “itu ternyata sangat sulit dalam pengaturan enterprise,” kata Bilien. â€œData terbatas untuk beberapa kasus penggunaan dan berantakan untuk yang lain.â€

Biasanya, menggunakan data mentah untuk prediksi yang dapat diandalkan adalah tantangan manual dan memakan waktu, tetapi â€œsekarang dengan agen kita memasuki era baru di mana membangun ontologi secara otomatis mungkin,â€ imbuh Bilien.

Metode penghalusan terawasi klasik dapat menyebabkan osilasi, ketika model melupakan keterampilan terakhir yang mereka pelajari saat mempelajari nada berikutnya. Secara keseluruhan, pembelajaran tidak terkumpul, kompresi menjadi â€œdramatis,â€ dan model meningkat â€œepisodikâ€ daripada terus-menerus, membuat mereka terus gagal pada tugas baru atau yang belum terlihat sebelumnya.

Seperti yang dicatat Bilien: â€œAnda tidak akan pernah memiliki model pembelajaran mandiri sepenuhnya jika Anda mengalami regresi setiap saat.â€

Dalam kasus penggunaan enterprise â€” seperti perbankan di mana jutaan transaksi diproses setiap hari â€” tingkat keandalan yang tinggi sangat krusial, kata Bilien. â€œSatu pertanyaan yang saya ajukan kepada semua pelanggan: Apakah 95% cukup? Di banyak kasus, itu tidak cukup. Anda perlu 99.999%. Selisih 1% itu terlalu besar.â€

Decision context graphs dapat menutup kesenjangan tersebut, klaimnya: Ketika pertanyaan dukungan pelanggan yang sama diajukan berkali-kali, agen akan memberikan jawaban â€œmemuaskanâ€ secara prediktif dan tanpa regresi, semua sambil mempertahankan otonomi.

Menyandikan keterapan dan validitas temporal ke dalam grafik terstruktur â€” daripada bergantung pada LLM untuk menginfeksi itu â€” adalah pendekatan yang “masuk akal” untuk batasan nyata dalam kerangka pengambilan yang ada, kata Mayham. Pertanyaan terbuka adalah apakah generasi ontologi otomatis dapat bertahan melawan data yang berantakan dan beragam yang sebenarnya dimiliki perusahaan. â€œItu selalu bagian yang sulit,â€ tuturnya.