Mampu meng-update pengetahuan LLM (Large Language Model) setelah proses pelatihan adalah tantangan besar bagi AI di dunia bisnis. Solusi yang ada saat ini sering kali mahal, lambat, atau terbatasi oleh ukuran jendela konteks. Namun, MeMo, sebuah kerangka kerja yang dikembangkan oleh peneliti dari berbagai universitas, menawarkan solusi dengan mengodifikasi pengetahuan baru ke dalam model memori yang lebih kecil dan berdedikasi, terpisah dari LLM utama.
Arsitektur modular ini bekerja baik dengan model sumber terbuka maupun tertutup, serta menghindari kompleksitas sistem pipeline dan pelatihan ulang model secara keseluruhan. Eksperimen menunjukkan bahwa MeMo dapat menangani pertanyaan kompleks dengan andal, meskipun pipeline pengambilan informasi berisik. Ini juga menghindari masalah “catastrophic forgetting” yang sering terjadi ketika model dioptimalkan langsung dan menyediakan jalur biaya yang efisien untuk pembaruan pengetahuan yang berkelanjutan.
Tantangan Memperbarui Memori LLM
Setelah pelatihan, LLM biasanya “dibekukan” dan pengetahuan internalnya tetap statis sampai dilakukan pembaruan besar yang memerlukan komputasi yang sangat tinggi. Saat ini, pengembang bergantung pada tiga pendekatan utama untuk mengintegrasikan pengetahuan eksternal ke dalam LLM, masing-masing dengan kelemahan yang signifikan:
- Metode non-parametrik, seperti retrieval-augmented generation (RAG) dan in-context learning, mengandalkan dokumen relevan dari database eksternal yang dimasukkan langsung ke dalam prompt model. Meski populer, metode ini terbatas oleh ukuran jendela konteks.
- Metode parametrik, seperti pretraining yang berkelanjutan atau fine-tuning terawasi, mencoba menginternalisasi pengetahuan baru langsung ke dalam bobot LLM. Namun, memperbarui LLM modern yang besar sangat mahal dan biasanya tidak mungkin untuk model tertutup yang terhalang oleh API. Fine-tuning juga cenderung menyebabkan catastrophic forgetting, yang mengikis kemampuan dan jaminan keselamatan yang sebelumnya dimiliki oleh model.
- Metode memori laten, seperti kompresi konteks, memberikan jalan tengah. Namun, memori yang terkompresi terikat erat pada arsitektur model yang menghasilkan, sehingga tidak bisa ditransfer ke model lainnya.
Bagaimana MeMo Bekerja
Kerangka kerja MeMo (Memory as a Model) memperkenalkan arsitektur modular yang terdiri dari dua komponen terpisah. Model MEMORY adalah LLM kecil yang dilatih khusus untuk mengodekan pengetahuan baru. Model EXECUTIVE adalah LLM beku yang berfungsi sebagai mesin penalaran. Ketika pengguna mengajukan pertanyaan, model EXECUTIVE menganggap model MEMORY sebagai oracle eksternal, mengeluarkan sub-pertanyaan yang diarahkan untuk mengumpulkan fakta dan menyintesis fakta-fakta tersebut menjadi jawaban final.
Desain inti dari MeMo didasarkan pada konsep “refleksi.” Refleksi adalah pasangan pertanyaan-jawaban yang dirancang untuk menangkap setiap sudut pengetahuan. Alih-alih memaksa AI untuk memproses dokumen besar yang tidak terstruktur, MeMo menggunakan model GENERATOR untuk mendistil teks mentah menjadi ribuan pasangan Q&A yang diarahkan. Model MEMORY kemudian disempurnakan pada dataset ini untuk menjawab pertanyaan menggunakan hanya pengetahuan parametrik tanpa perlu membaca konteks yang diambil.
Saat pengambilan informasi, interaksi antara kedua model mengikuti protokol terstruktur dalam tiga tahap:
- Model EXECUTIVE mengurai pertanyaan kompleks pengguna menjadi sub-pertanyaan atomik. Model MEMORY menjawab masing-masing secara independen untuk menetapkan fakta dasar.
- Dengan petunjuk awal tersebut, model EXECUTIVE mengeluarkan pertanyaan lanjutan untuk mempersempit entitas kandidat hingga menemukan target spesifik.
- Akhirnya, model EXECUTIVE meminta model MEMORY untuk fakta pendukung tentang entitas target dan menyintesis cuplikan yang diambil menjadi jawaban yang kohesif.
Menangani Pembaruan Pengetahuan Berkelanjutan
Menjaga memori AI membutuhkan pembaruan yang konstan seiring perubahan kebijakan perusahaan dan publikasi laporan baru. Biasanya, memperbarui parameter model memerlukan pelatihan ulang dari awal dengan data lama dan baru yang digabungkan. Dengan pertumbuhan basis pengetahuan, biaya pelatihan ulang ini menjadi sangat besar.
Untuk menangani pembaruan secara efisien, MeMo mengandalkan teknik yang disebut “penggabungan model.” Alih-alih pelatihan ulang besar-besaran, MeMo melatih model MEMORY baru yang independen hanya pada dokumen yang baru ditambahkan. Sistem ini menghasilkan “vektor tugas” yang merepresentasikan perubahan parameter dari data baru. Pembaruan ini kemudian digabungkan secara matematis ke dalam bobot model MEMORY asli.
Meski begitu, penggabungan model ini memiliki trade-off: akurasi dapat menurun antara 11% hingga 19% dibandingkan pelatihan ulang penuh, tergantung pada model penalaran yang digunakan.
MeMo dalam Aksi
Untuk mengukur efektivitas sebenarnya, tim riset mengevaluasi MeMo terhadap beberapa tolok ukur industri yang memerlukan penalaran kompleks lintas dokumen. Mereka menggunakan Qwen2.5-32B-Instruct sebagai model GENERATOR untuk mendistil teks mentah menjadi refleksi. Untuk model MEMORY utama, mereka menggunakan Qwen2.5-14B-Instruct dan menjalankan validasi yang sama pada model-model parameter lebih kecil.
Keberhasilan MeMo terlihat jelas pada pengujian Benchmark NarrativeQA, di mana MeMo mencapai akurasi 53,58% saat dipasangkan dengan Gemini 3 Flash, dibandingkan dengan HippoRAG2 yang hanya mencapai 23,21%.
MeMo sangat diuntungkan dalam sistem perusahaan yang seringkali perlu menyintesis jawaban kompleks, seperti mengatasi kerangka regulasi yang tumpang tindih atau mengkonsolidasikan wawasan dari banyak sumber dokumen. Dalam hal ini, MeMo sukses karena koneksi yang ada dipetakan dan diinternalisasikan selama pelatihan. Penggunaan model EXECUTIVE yang interaksi dengan oracle terdesentralisasi memberikan keuntungan besar dalam menghadapi data yang berisik dan tidak teratur.
Limitasi dan Trade-Offs
Bagi tim teknik yang ingin menerapkan MeMo, ada beberapa batasan yang perlu diperhatikan. Tidak seperti sistem RAG tradisional yang cepat mengindeks dokumen mentah ke dalam database vektor, MeMo memerlukan biaya pelatihan awal untuk setiap korpus baru. Jalur generasi data yang digunakan untuk mensintesis refleksi pelatihan adalah kompleks dan biaya. Ini adalah tantangan yang signifikan untuk membuat metode ini lebih efisien.
Karena model MEMORY adalah jaringan saraf berukuran tetap, kemampuannya untuk menginternalisasi pengetahuan dibatasi oleh kapasitas representasionalnya. Selain itu, MeMo sering kali menyintesis jawaban dari memori parametrik sehingga bisa sulit untuk memastikan asal informasi, yang bisa menjadi masalah besar dalam aplikasi perusahaan yang memerlukan jejak audit yang ketat.
Kesimpulannya, memilih antara MeMo dan RAG tradisional sangat bergantung pada kebutuhan spesifik dan volatilitas data. Tim diharapkan memilih RAG untuk jawaban yang ada dalam satu dokumen, sementara MeMo lebih baik digunakan untuk menjawab pertanyaan yang memerlukan sintesis dari informasi yang tersebar di banyak sumber.

