Memproses 200.000 token melalui model bahasa besar itu mahal dan lambat. Semakin panjang konteksnya, semakin cepat biaya membengkak. Tim peneliti dari Tsinghua University dan Z.ai telah menciptakan teknik bernama IndexCache yang mampu mengurangi hingga 75% perhitungan yang berlebihan dalam model perhatian jarang (sparse attention), dan menghasilkan waktu respons yang lebih cepat hingga 1,82 kali lipat untuk token pertama dan 1,48 kali lipat lebih cepat dalam throughput generasi pada panjang konteks tersebut.
Teknik ini berlaku untuk model-model yang menggunakan arsitektur DeepSeek Sparse Attention, termasuk keluarga terbaru DeepSeek dan GLM. Ini membantu perusahaan memberikan pengalaman pengguna yang lebih cepat untuk model konteks panjang yang digunakan dalam produksi, dan kemampuan ini sudah terbukti dalam uji coba awal pada model GLM-5 dengan 744 miliar parameter.
Hambatan DSA
Model bahasa besar mengandalkan mekanisme self-attention, di mana model menghitung hubungan antara setiap token dalam konteksnya dan semua token sebelumnya untuk memprediksi token berikutnya. Namun, self-attention memiliki batasan serius, karena kompleksitas komputasinya meningkat secara kuadratik seiring dengan panjang urutan. Bagi aplikasi yang memerlukan jendela konteks yang panjang (seperti pemrosesan dokumen besar, alur kerja bertahap, atau pemikiran yang kompleks), pengukuran kuadratik ini menyebabkan laju inferensi yang lambat serta biaya komputasi dan memori yang signifikan.
Di situlah sparse attention menawarkan solusi yang tepat. Alih-alih menghitung hubungan antara setiap token dengan semua token sebelumnya, sparse attention mengoptimalkan prosesnya dengan memungkinkan setiap query untuk memilih dan memperhatikan hanya subset token yang paling relevan.
DeepSeek Sparse Attention (DSA) adalah implementasi efisien dari konsep ini, pertama kali diperkenalkan dalam DeepSeek-V3.2. Untuk menentukan token mana yang paling penting, DSA memperkenalkan modul “lightning indexer” di setiap lapisan model. Indexer ini memberi skor pada semua token sebelumnya dan memilih beberapa token untuk diproses oleh mekanisme perhatian inti. Dengan cara ini, DSA mengurangi beratnya komputasi perhatian inti dari kuadratik menjadi linier, yang secara signifikan mempercepat model saat tetap menjaga kualitas output.
Namun, peneliti menemukan adanya masalah yang tersisa: indexer DSA itu sendiri masih beroperasi pada kompleksitas kuadratik di setiap lapisan. Meskipun indexer ini lebih hemat biaya daripada proses perhatian utama, seiring panjang konteks tumbuh, waktu yang dihabiskan model untuk menjalankan indexer ini meroket. Ini sangat memperlambat model, terutama pada tahap “prefill” awal saat prompt pertama kali diproses.
Menyimpan perhatian dengan IndexCache
Untuk mengatasi kendala indexer ini, tim peneliti menemukan karakteristik penting tentang cara DSA memproses data. Subset token penting yang dipilih oleh sebuah indexer tetap stabil saat data bergerak melalui lapisan transformasi yang berurutan. Uji empiris pada model DSA menunjukkan bahwa lapisan bertetangga berbagi antara 70% dan 100% token yang dipilih.
Dengan memanfaatkan redundansi antar-lapisan ini, para peneliti mengembangkan IndexCache. Teknik ini membagi lapisan model menjadi dua kategori. Beberapa lapisan penuh (F) mempertahankan indexer mereka, secara aktif memberi skor pada token dan memilih yang paling penting untuk disimpan. Sementara itu, lapisan lainnya menjadi berbagi (S), tanpa melakukan pengindeksan dan menggunakan indeks cached dari lapisan F terdekat.
Selama inferensi, model cukup memeriksa jenis lapisan. Jika mencapai lapisan F, ia menghitung dan menyimpan indeks baru. Jika lapisan S, cukup menyalin data cached tanpa perhitungan tambahan.
Berbagai teknik optimisasi berusaha menyelesaikan hambatan perhatian dengan mengompresi KV cache, yaitu tempat di mana nilai perhatian disimpan. Berbeda dengan kompresi memori biasa, IndexCache menyerang hambatan komputasi.
“IndexCache bukan teknik kompresi atau berbagi KV cache tradisional,” ucap Yushi Bai, salah satu penulis makalah ini. “Ini menghilangkan redundansi dengan menggunakan kembali indeks antara lapisan, sehingga mengurangi komputasi, bukan hanya jejak memori.”
Para peneliti mengembangkan dua pendekatan penerapan untuk IndexCache yang hanya berlaku untuk model yang menggunakan arsitektur DSA, seperti model DeepSeek terbaru dan keluarga GLM yang terkini. Untuk pengembang yang bekerja dengan model DSA siap pakai di mana pelatihan ulang tidak mungkin, mereka menciptakan metode tanpa pelatihan yang mengandalkan algoritma “pemilihan lapisan serakah.”
Dengan menjalankan dataset kalibrasi kecil melalui model, algoritma ini secara otomatis menentukan penempatan optimal lapisan F dan S tanpa pembaruan berat. Bukti empiris menunjukkan bahwa algoritma serakah ini dapat menghapus 75% indexer dengan aman sambil mempertahankan kinerja downstream model asli.
Untuk tim yang melakukan pelatihan awal atau fine-tuning model dasar mereka, peneliti mengusulkan versi yang lebih sadar pelatihan yang mengoptimalkan parameter jaringan untuk secara native mendukung sharing antar-lapisan dengan memperkenalkan “multi-layer distillation loss” selama pelatihan.
Peningkatan kecepatan di dunia nyata pada model produksi
Untuk menguji dampak IndexCache, para peneliti menerapkannya pada model GLM-4.7 Flash dengan 30 miliar parameter dan membandingkannya dengan baseline standar. Pada panjang konteks 200K, penghapusan 75% dari indexer mengurangi latensi prefill dari 19,5 detik menjadi hanya 10,7 detik, memberikan peningkatan kecepatan 1,82 kali lipat. Peningkatan kecepatan ini diharapkan lebih besar pada konteks yang lebih panjang.
Selama fase decoding, di mana model menghasilkan responsnya, IndexCache meningkatkan throughput per permintaan dari 58 token per detik menjadi 86 token per detik pada panjang konteks 200K, menghasilkan peningkatan 1,48 kali lipat. Ketika memori server jenuh dengan permintaan, total throughput decoding meningkat hingga 51%.
Bagi tim perusahaan, peningkatan efisiensi ini langsung diterjemahkan menjadi penghematan biaya. “Dalam hal ROI, IndexCache memberikan manfaat konsisten di berbagai skenario, tetapi keuntungan paling terlihat pada beban kerja konteks panjang seperti RAG, analisis dokumen, dan pipeline agentic,” kata Bai. “Dalam kasus-kasus ini, kami mengamati setidaknya pengurangan biaya deployment sekitar 20%.”
Menariknya, peningkatan efisiensi ini tidak mengorbankan kemampuan reasoning. Menggunakan pendekatan tanpa pelatihan untuk menghilangkan 75% indexer, model 30B mencocokkan skor rata-rata baseline aslinya pada benchmark konteks panjang dengan skor 49,9 dibandingkan 50,2. Pada benchmark pemecahan masalah AIME 2025 yang sangat kompleks, model yang dioptimalkan bahkan melampaui baseline asli, dengan skor 92,6 dibandingkan 91,0.
Tim juga menjalankan eksperimen awal pada model GLM-5 skala produksi dengan 744 miliar parameter. Mereka menemukan bahwa penghapusan 75% indexer menggunakan metode tanpa pelatihan memberikan setidaknya kecepatan 1,3 kali lipat pada konteks di atas 100K token. Pada saat yang sama, model mempertahankan rata-rata kualitas yang hampir identik pada tugas konteks panjang.
Mengimplementasikan IndexCache dalam produksi
Bagi tim pengembang yang ingin menerapkan pendekatan tanpa pelatihan hari ini, prosesnya cukup sederhana, tetapi memerlukan pengaturan yang hati-hati. Meskipun algoritma pencarian serakah secara otomatis menemukan konfigurasi lapisan yang optimal, kualitas konfigurasi tersebut tergantung pada data yang diproses.
“Kami merekomendasikan menggunakan data spesifik domain sebagai dataset kalibrasi agar pola sharing lapisan yang ditemukan sesuai dengan beban kerja sebenarnya,” ujar Bai.
Setelah dikalibrasi, optimisasi ini sangat dapat diakses untuk lingkungan produksi. Patch open-source sudah tersedia di GitHub untuk mesin penyajian utama. “Integrasi relatif sederhana — pengembang dapat menerapkan patch ke tumpukan inferensi yang ada, seperti vLLM atau SGLang, dan mengaktifkan IndexCache dengan perubahan konfigurasi minimal,” tambah Bai.
Sementara IndexCache memberikan solusi instan untuk hambatan komputasi saat ini, filosofinya menunjukkan adanya pergeseran lebih luas dalam cara industri AI akan mendekati desain model ke depan.
“Model-model dasar di masa depan kemungkinan akan dirancang dengan batasan inferensi di hilir sejak awal,” simpul Bai. “Ini berarti desain yang tidak hanya dapat diskalakan dari segi ukuran model, tetapi juga dioptimalkan untuk throughput dan latensi dunia nyata, bukan sekadar memperlakukan ini sebagai masalah setelahnya.”

