AI Anda Butuh Terminal, Bukan Sekadar Database Vektor!

Ketika alur kerja agen tidak berjalan dengan baik, para pengembang sering kali berpikir bahwa masalah terletak pada kemampuan model yang mendasarinya untuk melakukan penalaran. Padahal, keterbatasan utama sering kali berasal dari informasi yang diberikan oleh antarmuka pengambilan data. Peneliti dari beberapa universitas telah mengusulkan teknik bernama direct corpus interaction (DCI) yang memungkinkan agen untuk melewati model embedding sama sekali, dan mencari data mentah langsung menggunakan alat baris perintah standar.

Table of Content

Batasan Pengambilan Klasik
Interaksi Korpus Langsung
DCI dalam Tindakan
Batasan dan Implementasi Praktis DCI

Batasan Pengambilan Klasik

Dalam sistem pengambilan klasik seperti RAG, dokumen dipotong, dikonversi menjadi representasi vektor (atau embedding), dan diindeks secara offline di basis data vektor. Ketika sistem AI memproses sebuah query, sebuah pengambil menyaring seluruh basis data untuk mengembalikan daftar “top-k” potongan dokumen yang cocok dengan query tersebut. Semua bukti harus melalui mekanisme penilaian ini sebelum penalaran lebih lanjut dilakukan.

Tetapi aplikasi agen modern menuntut lebih dari itu. “Pengambilan yang padat (dense retrieval) sangat berguna untuk pengambilan semantik yang luas, tetapi ketika agen harus menyelesaikan tugas multi-langkah, sering kali perlu mencari string, angka, versi, kode kesalahan, jalur file, atau kombinasi petunjuk yang langka secara tepat,” ungkap penulis makalah DCI dalam komentar mereka kepada VentureBeat. “Detail-detail yang panjang semacam ini adalah di mana kesamaan semantik bisa rapuh.”

Berbeda dengan pencarian statis, agen juga harus merevisi rencana pencarian mereka secara dinamis setelah mengamati bukti parsial atau terlokalisasi. Batasan leksikal yang tepat dan penyempurnaan hipotesis multi-langkah sulit untuk dieksekusi dengan pengambil semantik. Karena pengambil mereduksi akses menjadi satu langkah, setiap bukti penting yang disaring oleh pencarian kesamaan tidak dapat dipulihkan lagi, terlepas dari seberapa canggih kemampuan penalaran agen setelahnya. Seperti yang dijelaskan oleh penulis, saluran pengambilan saat ini bisa menjadi hambatan karena “mereka menentukan terlalu awal apa yang boleh dilihat oleh agen.”

Interaksi Korpus Langsung

Akses langsung ini menangani masalah utama di lingkungan perusahaan: ketinggalan data. Indeks embedding selalu merupakan snapshot dari momen tertentu dalam waktu, memerlukan sumber daya komputasi dan waktu yang cukup banyak untuk dibangun dan dirawat.

â€œDi banyak pengaturan perusahaan, data bukanlah koleksi dokumen yang stabil. Ini adalah laporan keuangan harian, log langsung, tiket, komit kode, file konfigurasi, timeline insiden, dan dokumen internal yang terus berubah,â€ jelas penulis. DCI memungkinkan agen untuk beroperasi berdasarkan keadaan terkini dari ruang kerja, bukan berdasarkan indeks vektor yang sudah usang.

Agen beroperasi dalam lingkungan yang mirip terminal di mana pengamatannya adalah keluaran alat mentah seperti jalur file, potongan teks yang cocok, dan baris sekitarnya. Alat inti yang disediakan oleh DCI sedikit tetapi sangat ekspresif. Agen menggunakan perintah seperti â€œfindâ€ dan â€œglobâ€ untuk menavigasi struktur direktori dan menemukan file. Untuk pencocokan yang tepat, mereka menggunakan â€œgrepâ€ dan â€œrgâ€ untuk menemukan kata kunci spesifik, pola regex, dan string yang tepat. Ketika diperlukan inspeksi lokal, alat seperti â€œhead,â€ â€œtail,â€ â€œsed,â€ â€œcat,â€ dan skrip Python ringan memungkinkan agen untuk melihat konteks di sekitar pencocokan atau membaca bagian tertentu dari file.

Agen dapat menggabungkan alat ini melalui pipeline shell untuk menjalankan logika pencarian yang kompleks dalam satu langkah. Sebuah agen dapat mengpipe perintah untuk menegakkan batasan leksikal yang ketat, seperti mencari satu istilah di dalam file dan menghubungkan output untuk mencari istilah kedua. Agen dapat menggabungkan beberapa petunjuk lemah di seluruh korpus dengan menemukan jenis file tertentu, mencari kata kunci seperti “laporan,” dan menyaring untuk tahun tertentu seperti “2024.” Mereka juga dapat segera memverifikasi hipotesis dengan memeriksa baris-baris di sekitar pencocokan kata kunci.

DCI mendelegasikan interpretasi semantik langsung kepada agen, bukan bergantung pada pencarian kesamaan berbasis embedding. Agen dapat merumuskan hipotesis, menguji pola leksikal yang tepat, dan mengekstrak informasi rinci yang mungkin terlewatkan oleh pengambil semantik tradisional.

Para peneliti mengusulkan dua versi dari sistem ini. DCI-Agent-Lite dirancang sebagai setup ringan, biaya rendah yang dibangun di atas model nano GPT-5.4 dan dibatasi hanya untuk interaksi terminal mentah seperti perintah bash dan pembacaan file dasar. Karena pembacaan file mentah dapat dengan cepat mengisi memori model yang lebih kecil, versi ini mengandalkan strategi manajemen konteks runtime yang ringan untuk mendukung eksplorasi jangka panjang.

DCI-Agent-CC adalah versi berkinerja tinggi, dirancang untuk tim dengan anggaran komputasi lebih besar. Ia berjalan di atas Claude Code yang didukung oleh Claude Sonnet 4.6. Claude Code menyediakan pemrosesan yang lebih kuat, orkestrasi alat yang lebih kokoh, dan penanganan konteks bawaan yang lebih superior, yang meningkatkan stabilitas agen selama pencarian multi-langkah yang kompleks di berbagai data set.

DCI dalam Tindakan

Para peneliti menguji kedua versi DCI di berbagai benchmark pencarian agenik seperti BrowseComp-Plus, QA berbasis pengetahuan dengan penalaran satu langkah dan multi-langkah, serta perankingan pengambilan informasi dalam tugas yang memerlukan penalaran khusus domain dan pemeriksaan fakta ilmiah.

Mereka menguji DCI melawan tiga baseline. Yang pertama termasuk agen pengambilan berat terbuka seperti Search-R1 dan agen proprietary yang didukung model frontier seperti GPT-5 dan Claude Sonnet 4.6, dipasangkan dengan pengambil standar. Baseline kedua mencakup pengambil jarang klasik seperti BM25 dan pengambil padat seperti embedding text-embedding-3-large dari OpenAI dan Qwen3-Embedding-8B. Baseline ketiga terdiri dari re-ranker berorientasi penalaran yang berkinerja tinggi seperti ReasonRank-32B dan Rank-R1.

DCI secara sistematis mengungguli baseline, sesuai dengan para peneliti. Dalam benchmark kompleks BrowseComp-Plus, mengganti pengambil semantik Qwen3 tradisional dengan DCI pada backend Claude Sonnet 4.6 meningkatkan akurasi dari 69,0% menjadi 80,0% sambil mengurangi biaya API dari $1,440 menjadi $1,016. Pengembalian investasi untuk agen ringan juga terlihat. DCI-Agent-Lite dengan GPT-5.4 nano bersaing dengan model o3 dari OpenAI menggunakan pengambilan tradisional sambil menghemat lebih dari $600.

Dalam benchmark QA multi-langkah, DCI-Agent-CC mencapai akurasi rata-rata 83,0%, meningkat 30,7 poin dari baseline pengambilan berpoin terbuka yang terkuat, menurut para peneliti.

Data menunjukkan bahwa DCI memiliki tingkat pengambilan dokumen yang lebih rendah dibandingkan model embedding yang padat, tetapi sekali menemukan dokumen yang relevan, DCI mengekstrak nilai yang jauh lebih substansial dari dokumen tersebut.

â€œJika seorang pemimpin AI perusahaan bertanya di mana DCI paling jelas berguna, saya akan menunjuk kepada tugas-tugas yang memerlukan lokalisasi bukti yang tepat di ruang kerja yang dinamis: debugging insiden produksi, mencari kode besar, menganalisis log, investigasi kepatuhan, jejak audit, atau analisis akar masalah multi-dokumen,â€ catat para peneliti.

Dalam satu tugas penelitian mendalam yang kompleks, agen harus mengidentifikasi pertandingan sepak bola tertentu berdasarkan 12 petunjuk yang saling terkait, termasuk jumlah kehadiran, kartu kuning, dan tanggal lahir pemain. Pengambil tradisional akan gagal dengan hanya menampilkan potongan pendek yang tidak terhubung. Sebagai gantinya, agen DCI menjelajahi direktori file, membaca baris tertentu dari laporan pertandingan Inggris versus Belgia tahun 1990 untuk memverifikasi jumlah pergantian pemain, mengambil kutipan tertentu dari file wawancara, dan memverifikasi tanggal lahir yang tepat dari dua pemain dengan melihat file teks Wikipedia mereka. Dengan menghubungkan perintah-perintah sederhana ini, DCI memastikan bahwa tidak ada bukti yang hilang di balik algoritme pencarian semantik yang cacat.

Batasan dan Implementasi Praktis DCI

DCI memiliki rentang operasi yang jelas di mana ia unggul dalam kedalaman pencarian tetapi sulit dalam jangkauan pencarian. Ketika korpus eksperimen diperluas dari 100,000 menjadi 400,000 dokumen, akurasi sistem menurun signifikan dan jumlah panggilan alat rata-rata meningkat. Meskipun DCI sangat kuat setelah dokumen yang menjanjikan ditemukan, biaya untuk menemukan dokumen awal yang berguna meningkat tajam seiring dengan semakin besarnya ruang kandidat.

DCI juga memiliki tingkat pengambilan dokumen yang lebih rendah dibandingkan dengan model embedding yang padat. Ia mengorbankan pengambilan menyeluruh untuk presisi lokal yang tinggi. Jika alur kerja perusahaan secara ketat memerlukan penemuan setiap dokumen yang relevan dari data set yang besar, DCI mungkin bukan alat yang tepat.

Memberikan agen alat ekspresif seperti shell bash tanpa batas meningkatkan latensi dan biaya komputasi karena tingginya volume panggilan alat iteratif yang diperlukan untuk menyelesaikan pencarian. Ini juga menciptakan tantangan manajemen konteks dan keamanan yang signifikan bagi departemen TI.

â€œPanggilan alat dapat menghasilkan output besar; jalur panjang dapat mengisi jendela konteks; dan akses terminal mentah memerlukan pengelompokan, kontrol izin, dan rekayasa yang cermat,â€ kata para penulis. Untuk mengelola jendela konteks, para peneliti menemukan bahwa pemotongan moderat dan pengompakan membantu agen mempertahankan pencarian yang lebih lama, sementara ringkasan yang terlalu agresif cenderung mengabaikan bukti yang berguna.

Karena realitas operasional ini, DCI tidak bertujuan menjadi pengganti wajib untuk infrastruktur vektor yang ada. Sebaliknya, DCI berfungsi sebagai pelengkap.

â€œBagi insinyur orkestrasi dan arsitek data, pandangan kami adalah bahwa pola penyebaran paling praktis dalam waktu dekat adalah hibrida,â€ kata para penulis. Pengambilan semantik masih dapat memberikan penemuan kandidat dengan pengambilan tinggi saat niat pengguna luas atau tidak terdefinisi. â€œDCI kemudian dapat beroperasi sebagai tingkat presisi dan verifikasi: agen dapat mencari di dalam dokumen yang diambil, memperluas dari situ ke file-file tetangga, memeriksa batasan yang tepat, dan menggabungkan sinyal lemah di seluruh dokumen.â€

Para peneliti telah merilis kode untuk DCI di bawah lisensi MIT yang permisif.

â€œDalam jangka panjang, DCI mengubah cara kita memandang data perusahaan. Data tidak hanya perlu disimpan untuk manusia atau diindeks untuk mesin pencari; data juga perlu diatur untuk agen yang dapat memeriksa, membandingkan, menggrep, melacak, dan memverifikasi,â€ simpul para penulis. â€œNama file, timestamp, pengenal stabil, metadata, riwayat versi, dan struktur yang dapat dibaca mesin menjadi bagian dari antarmuka pengambilan.â€