Arsitektur Konteks Mengganti RAG Saat AI Agenik Mendorong Batas Penarikan Data Perusahaan

Table of Content

Dari caching ke konteks
Apa saja yang termasuk dalam Redis Iris
Apa kata para analis
Untuk AI klinis real-time, salah langkah dalam konteks bukanlah pilihan
Apa artinya bagi perusahaan

Redis sudah punya nama besar sebagai lapisan caching yang membantu aplikasi web tetap bertahan di tengah beban yang tinggi. Sekarang, mereka menjawab tantangan baru: agent AI dalam produksi yang gagal bukan karena modelnya salah, tetapi karena data yang mendasari mereka sangat tersebar, usang, dan lebih terstruktur untuk manusia daripada mesin. Jalur pengambilan data yang dibangun untuk satu kueri tidak bisa menyerap volume permintaan yang dihasilkan oleh agent.

Kesenjangan yang coba dijembatani Redis adalah struktural: agent membuat permintaan data jauh lebih banyak dibandingkan pengguna manusia, tetapi sebagian besar lapisan pengambilan data dibangun untuk masalah skala manusia. Redis Iris, yang diluncurkan pada hari Senin, adalah jawaban perusahaan ini: platform konteks dan memori yang berada di antara agent dan data yang mereka butuhkan untuk beraksi. Platform ini menggabungkan pengambilan data secara real-time, antarmuka semantik yang otomatis menghasilkan alat MCP dari model data bisnis, dan server memori agent yang dibangun di atas Redis Flex, mesin penyimpanan yang ditulis ulang dan menjalankan 99% data di flash dengan biaya hanya sepertiga dari penyimpanan di memori.

Pengumuman ini hadir di saat infrastruktur RAG perusahaan sedang dalam transisi aktif. Pulse Q1 2026 oleh VentureBeat menunjukkan bahwa niat pembeli untuk mengadopsi pengambilan data hybrid meningkat tiga kali lipat dari 10.3% menjadi 33.3% antara Januari dan Maret. Optimalisasi pengambilan data kini menjadi prioritas investasi utama perusahaan untuk pertama kalinya. Stok pengambilan data in-house kustom meningkat dari 24.1% menjadi 35.6% saat perusahaan mulai meninggalkan opsi yang sudah ada. Redis tidak sendiri dalam membaca sinyal tersebut; beberapa penyedia platform data juga telah memposisikan ulang di sekitar lapisan konteks agent dalam beberapa minggu terakhir.

Kesenjangan skala inilah yang menjadi argumen struktural di balik peluncuran ini. “Perusahaan akan memiliki jumlah agent yang jauh lebih banyak dibandingkan manusia,” jelas Rowan Trollope, CEO Redis, kepada VentureBeat. “Jumlah agent yang jauh lebih banyak berarti jauh lebih banyak beban pada sistem backend.”

Dari caching ke konteks

Trollope mengaitkan hal ini dengan era mobile: Ketika backend lama yang dibangun untuk teller cabang tiba-tiba harus melayani satu juta pengguna smartphone, Redis menjadi lapisan caching yang menyerap beban tanpa perlu membangun ulang sepenuhnya.

Yang berbeda kali ini adalah bahwa agent tidak bisa menulis middleware mereka sendiri. Di era mobile, seorang pengembang akan berkolaborasi dengan administrator database, mengidentifikasi kueri yang dibutuhkan aplikasi dan menulis logika caching secara manual ke dalam lapisan middleware. Agent tidak bisa melakukan ini. Mereka perlu menemukan data yang tepat saat runtime, melalui antarmuka yang dibangun khusus untuk mereka sebelumnya, atau mereka akan terhenti.

â€œIni seperti analogi toko grosir di dalam kulkas,â€ katanya. â€œJika setiap kali Anda ingin membuat sandwich, Anda harus berlari ke toko grosir untuk mendapatkan bahan, itu tidak efisien. Anda menempatkan kulkas di setiap rumah, menyimpan sedikit makanan di sana. Dan ini adalah gambaran di mana kita masih cenderung berada dalam tumpukan infrastruktur.â€

Apa saja yang termasuk dalam Redis Iris

Iris terdiri dari lima komponen yang bersama-sama mencakup pengambilan data, akses semantik, memori, dan caching.

Integrasi Data Redis. Kini tersedia secara umum. RDI menggunakan jalur pengambilan data perubahan untuk menyinkronkan data dari database relasional, gudang, dan penyimpanan dokumen ke Redis secara terus-menerus, dengan konektor untuk Oracle, Snowflake, Databricks, dan Postgres.

Pencari Konteks. Saat ini dalam preview. Pengembang mendefinisikan model semantik data bisnis menggunakan model pydantic dan Redis secara otomatis menghasilkan alat MCP yang digunakan agent untuk mengajukan permohonan langsung, dengan kontrol akses tingkat baris ditegakkan di sisi server. Trollope menjelaskan bahwa pergeseran dari RAG klasik adalah sebuah inversi arah. “Ini hanyalah sebuah flip agar agent menarik data daripada mengandalkan dan memasukkannya ke dalam jalur,” ujarnya.

Memori Agent. Kini dalam preview. Menyimpan keadaan jangka pendek dan jangka panjang di seluruh sesi agar agent dapat membawa konteks tanpa perlu menghitung ulang pada setiap giliran.

Redis Flex. Mesin penyimpanan yang ditulis ulang yang menjalankan 99% data di SSD dan 1% di RAM, memberikan pengambilan data skala petabyte dengan latensi sub-milidetik.

Pencarian Redis dan LangCache. Tulang punggung pengambilan data dan caching semantik di bawah platform ini. LangCache mengurangi panggilan model yang redundan dengan menyimpan respons prompt.

Apa kata para analis

Industri data secara umum bergerak ke arah yang sama sekarang. Setiap vendor database besar saat ini tengah mengembangkan argumen lapisan konteks.

Vendor database tradisional, termasuk Oracle, sedang mengintegrasikan lapisan konteks dan memori untuk membawa database relasional ke era AI agentik. Vendor database vektor yang dirancang khusus, seperti Pinecone, melakukan hal serupa dengan membangun lapisan pengetahuan baru untuk konteks AI agentik. Lapisan konteks mandiri seperti Hindsight juga menjadi bagian dari lanskap yang muncul.

Trollope memposisikan Redis sebagai berbeda secara struktural dari kompetisi tersebut. “Untuk kami menang, tidak ada yang harus kalah,” ujarnya. Banyak implementasi Redis yang sudah menjalankan MongoDB atau Oracle sebagai sistem pencatatan backend. Iris mencerminkan dan menyimpan dari sistem tersebut alih-alih menggantikannya. Redis meluncurkan Iris di pasar Snowflake dengan konektor native.

Stephanie Walter, Pemimpin Praktik untuk AI Stack di HyperFRAME Research, menyatakan dengan jelas konteks pasar saat ini. “Pasar berkumpul pada kesimpulan yang sama: agent tidak hanya membutuhkan lebih banyak token atau model yang lebih baik. Mereka butuh konteks yang teratur, terkini, dan dengan latensi rendah,” ujar Walter.

Pandangannya mengenai diferensiasi Redis berfokus pada posisi Redis yang sudah ada dalam tumpukan, yang dekat dengan runtime, keadaan operasional yang sensitif terhadap latensi, dan data real-time.

â€œPenawarannya bukan ‘RAG yang lebih baik’ melainkan ‘agent memerlukan konteks real-time, memori, dan pengambilan yang cepat saat mereka benar-benar bekerja,'” katanya.

Apakah itu Redis atau vendor lainnya, setiap teknologi lapisan konteks akan menghadapi tantangan tata kelola untuk bisa sukses.

“AI agentik tidak akan dapat berkembang di perusahaan jika setiap agent menjadi pusat biaya baru, risiko akses data baru, dan pengecualian tata kelola baru,” ujarnya. “Lapisan konteks yang menang akan menjadi yang mampu membuat agent lebih cepat, lebih murah, dan lebih aman untuk dijalankan.”

Untuk AI klinis real-time, salah langkah dalam konteks bukanlah pilihan

Mangoes.ai adalah salah satu perusahaan yang telah menjawab pertanyaan-pertanyaan tersebut dalam produksi, di mana biaya kesalahan konteks diukur dalam hasil pasien.

Amit Lamba, pendiri dan CEO Mangoes.ai, menjalankan platform AI suara real-time yang diterapkan di fasilitas kesehatan besar di mana pasien dan klinisi dapat menanyakan pertanyaan secara langsung tentang perawatan, penjadwalan, dan riwayat kasus. Mangoes.ai membangun tumpukannya secara native di Redis sejak awal.

â€œRetrieval, memori, dan keadaan sesi semua berjalan melalui Redis, jadi kami tidak menyatukan alat yang terpisah dan berharap mereka dapat saling berkomunikasi,â€ kata Lamba.

Masalah yang diatasi oleh kemampuan memori dinamis Iris adalah apa yang terjadi di sepanjang sesi yang kompleks.

“Bayangkan sesi terapi kelompok selama satu jam,” kata Lamba. “Anda perlu tahu siapa yang mengatakan apa, kapan, dan mampu memperlihatkan informasi yang tepat kepada terapis pada saat itu. Itu bukanlah masalah pengambilan yang sederhana.”

Platform ini menjalankan beberapa agent spesialis secara paralel, satu untuk identifikasi entitas, satu untuk penalaran hubungan, dan satu untuk mengintegrasikan riwayat kasus. â€œKemampuan memori dinamis hampir cocok sempurna dengan masalah yang sedang kami selesaikan,â€ kata Lamba.

Apa artinya bagi perusahaan

Bagi perusahaan yang membangun tumpukan AI mereka di sekitar RAG, lapisan pengambilan yang membawa mereka ke produksi tidak cukup lagi untuk mempertahankan posisi mereka.

Era RAG kini memberikan jalan bagi arsitektur konteks. Model RAG klasik mendorong data ke dalam agent sebelum model dipanggil. Implementasi produksi kini membalik situasi tersebut: agent menarik apa yang mereka butuhkan saat runtime melalui panggilan alat, memperlakukan lapisan data sebagai sumber daya langsung alih-alih beban yang dimuat sebelumnya. Tim yang masih mengoptimalkan jalur RAG sedang menyelesaikan masalah tahun lalu.

Lapisan semantik kini adalah infrastruktur produksi. Model yang mendefinisikan entitas bisnis, hubungan mereka, dan aturan akses di antara mereka perlu dibangun, versi, dan dipelihara dengan disiplin yang sama seperti jalur data. Kebanyakan organisasi belum mempekerjakan atau membangun struktur untuk pekerjaan itu. Perusahaan-perusahaan yang mendefinisikan arsitektur konteks mereka sekarang adalah mereka yang tidak perlu membangunnya kembali ketika beban kerja agent berkembang.

Anggaran sudah berpindah. Data dari VB Pulse Q1 2026 menunjukkan bahwa investasi dalam optimisasi pengambilan meningkat dari 19% menjadi 28.9% sepanjang kuartal, melampaui pengeluaran evaluasi untuk pertama kalinya. Organisasi yang tahun lalu mengukur kualitas pengambilan mereka kini berinvestasi untuk memperbaikinya. Lapisan konteks kini menjadi keputusan pengadaan yang aktif, bukan lagi item peta jalan.

â€œPertanyaan pertama untuk pembeli seharusnya bukan ‘Apakah saya perlu database vektor, konteks panjang, memori, atau mesin konteks?’ tetapi ‘Apa yang perlu diketahui agent ini, seberapa segar pengetahuan tersebut, siapa yang diizinkan mengaksesnya, dan berapa biaya setiap pengambilan?’â€ ujar Walter.