Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > IndexCache: Optimizer Perhatian Baru, Tingkatkan Kecepatan Inferensi AI Konteks Panjang hingga 1,82x!
Bisnis

IndexCache: Optimizer Perhatian Baru, Tingkatkan Kecepatan Inferensi AI Konteks Panjang hingga 1,82x!

Keenan
Terakhir diperbarui: 28 Maret 2026 11:10 AM
Oleh
Keenan
1 Tampilan
9 Menit Baca
Bagikan
IndexCache: Optimizer Perhatian Baru, Tingkatkan Kecepatan Inferensi AI Konteks Panjang hingga 1,82x!
Bagikan

Memproses 200.000 token melalui model bahasa besar itu mahal dan lambat. Semakin panjang konteksnya, semakin cepat biaya membengkak. Tim peneliti dari Tsinghua University dan Z.ai telah menciptakan teknik bernama IndexCache yang mampu mengurangi hingga 75% perhitungan yang berlebihan dalam model perhatian jarang (sparse attention), dan menghasilkan waktu respons yang lebih cepat hingga 1,82 kali lipat untuk token pertama dan 1,48 kali lipat lebih cepat dalam throughput generasi pada panjang konteks tersebut.

Table of Content
  • Hambatan DSA
  • Menyimpan perhatian dengan IndexCache
  • Peningkatan kecepatan di dunia nyata pada model produksi
  • Mengimplementasikan IndexCache dalam produksi

Teknik ini berlaku untuk model-model yang menggunakan arsitektur DeepSeek Sparse Attention, termasuk keluarga terbaru DeepSeek dan GLM. Ini membantu perusahaan memberikan pengalaman pengguna yang lebih cepat untuk model konteks panjang yang digunakan dalam produksi, dan kemampuan ini sudah terbukti dalam uji coba awal pada model GLM-5 dengan 744 miliar parameter.

Hambatan DSA

Model bahasa besar mengandalkan mekanisme self-attention, di mana model menghitung hubungan antara setiap token dalam konteksnya dan semua token sebelumnya untuk memprediksi token berikutnya. Namun, self-attention memiliki batasan serius, karena kompleksitas komputasinya meningkat secara kuadratik seiring dengan panjang urutan. Bagi aplikasi yang memerlukan jendela konteks yang panjang (seperti pemrosesan dokumen besar, alur kerja bertahap, atau pemikiran yang kompleks), pengukuran kuadratik ini menyebabkan laju inferensi yang lambat serta biaya komputasi dan memori yang signifikan.

Di situlah sparse attention menawarkan solusi yang tepat. Alih-alih menghitung hubungan antara setiap token dengan semua token sebelumnya, sparse attention mengoptimalkan prosesnya dengan memungkinkan setiap query untuk memilih dan memperhatikan hanya subset token yang paling relevan.

DeepSeek Sparse Attention (DSA) adalah implementasi efisien dari konsep ini, pertama kali diperkenalkan dalam DeepSeek-V3.2. Untuk menentukan token mana yang paling penting, DSA memperkenalkan modul “lightning indexer” di setiap lapisan model. Indexer ini memberi skor pada semua token sebelumnya dan memilih beberapa token untuk diproses oleh mekanisme perhatian inti. Dengan cara ini, DSA mengurangi beratnya komputasi perhatian inti dari kuadratik menjadi linier, yang secara signifikan mempercepat model saat tetap menjaga kualitas output.

Read more  Pengusaha Kini Bisa Tingkatkan Kemampuan Kode secara Mandiri dengan Paket All-in-One Ini!

Namun, peneliti menemukan adanya masalah yang tersisa: indexer DSA itu sendiri masih beroperasi pada kompleksitas kuadratik di setiap lapisan. Meskipun indexer ini lebih hemat biaya daripada proses perhatian utama, seiring panjang konteks tumbuh, waktu yang dihabiskan model untuk menjalankan indexer ini meroket. Ini sangat memperlambat model, terutama pada tahap “prefill” awal saat prompt pertama kali diproses.

Menyimpan perhatian dengan IndexCache

Untuk mengatasi kendala indexer ini, tim peneliti menemukan karakteristik penting tentang cara DSA memproses data. Subset token penting yang dipilih oleh sebuah indexer tetap stabil saat data bergerak melalui lapisan transformasi yang berurutan. Uji empiris pada model DSA menunjukkan bahwa lapisan bertetangga berbagi antara 70% dan 100% token yang dipilih.

Dengan memanfaatkan redundansi antar-lapisan ini, para peneliti mengembangkan IndexCache. Teknik ini membagi lapisan model menjadi dua kategori. Beberapa lapisan penuh (F) mempertahankan indexer mereka, secara aktif memberi skor pada token dan memilih yang paling penting untuk disimpan. Sementara itu, lapisan lainnya menjadi berbagi (S), tanpa melakukan pengindeksan dan menggunakan indeks cached dari lapisan F terdekat.

Selama inferensi, model cukup memeriksa jenis lapisan. Jika mencapai lapisan F, ia menghitung dan menyimpan indeks baru. Jika lapisan S, cukup menyalin data cached tanpa perhitungan tambahan.

Berbagai teknik optimisasi berusaha menyelesaikan hambatan perhatian dengan mengompresi KV cache, yaitu tempat di mana nilai perhatian disimpan. Berbeda dengan kompresi memori biasa, IndexCache menyerang hambatan komputasi.

“IndexCache bukan teknik kompresi atau berbagi KV cache tradisional,” ucap Yushi Bai, salah satu penulis makalah ini. “Ini menghilangkan redundansi dengan menggunakan kembali indeks antara lapisan, sehingga mengurangi komputasi, bukan hanya jejak memori.”

Read more  KTT ASEAN Tetap Digelar Mei Mendatang, Tapi Pertemuan Persiapan Diperpendek, Kata Filipina

Para peneliti mengembangkan dua pendekatan penerapan untuk IndexCache yang hanya berlaku untuk model yang menggunakan arsitektur DSA, seperti model DeepSeek terbaru dan keluarga GLM yang terkini. Untuk pengembang yang bekerja dengan model DSA siap pakai di mana pelatihan ulang tidak mungkin, mereka menciptakan metode tanpa pelatihan yang mengandalkan algoritma “pemilihan lapisan serakah.”

Dengan menjalankan dataset kalibrasi kecil melalui model, algoritma ini secara otomatis menentukan penempatan optimal lapisan F dan S tanpa pembaruan berat. Bukti empiris menunjukkan bahwa algoritma serakah ini dapat menghapus 75% indexer dengan aman sambil mempertahankan kinerja downstream model asli.

Untuk tim yang melakukan pelatihan awal atau fine-tuning model dasar mereka, peneliti mengusulkan versi yang lebih sadar pelatihan yang mengoptimalkan parameter jaringan untuk secara native mendukung sharing antar-lapisan dengan memperkenalkan “multi-layer distillation loss” selama pelatihan.

Peningkatan kecepatan di dunia nyata pada model produksi

Untuk menguji dampak IndexCache, para peneliti menerapkannya pada model GLM-4.7 Flash dengan 30 miliar parameter dan membandingkannya dengan baseline standar. Pada panjang konteks 200K, penghapusan 75% dari indexer mengurangi latensi prefill dari 19,5 detik menjadi hanya 10,7 detik, memberikan peningkatan kecepatan 1,82 kali lipat. Peningkatan kecepatan ini diharapkan lebih besar pada konteks yang lebih panjang.

Selama fase decoding, di mana model menghasilkan responsnya, IndexCache meningkatkan throughput per permintaan dari 58 token per detik menjadi 86 token per detik pada panjang konteks 200K, menghasilkan peningkatan 1,48 kali lipat. Ketika memori server jenuh dengan permintaan, total throughput decoding meningkat hingga 51%.

Bagi tim perusahaan, peningkatan efisiensi ini langsung diterjemahkan menjadi penghematan biaya. “Dalam hal ROI, IndexCache memberikan manfaat konsisten di berbagai skenario, tetapi keuntungan paling terlihat pada beban kerja konteks panjang seperti RAG, analisis dokumen, dan pipeline agentic,” kata Bai. “Dalam kasus-kasus ini, kami mengamati setidaknya pengurangan biaya deployment sekitar 20%.”

Read more  Alumni OpenAI Diam-Diam Investasi dari Dana Baru yang Berpotensi Capai $100 Juta

Menariknya, peningkatan efisiensi ini tidak mengorbankan kemampuan reasoning. Menggunakan pendekatan tanpa pelatihan untuk menghilangkan 75% indexer, model 30B mencocokkan skor rata-rata baseline aslinya pada benchmark konteks panjang dengan skor 49,9 dibandingkan 50,2. Pada benchmark pemecahan masalah AIME 2025 yang sangat kompleks, model yang dioptimalkan bahkan melampaui baseline asli, dengan skor 92,6 dibandingkan 91,0.

Tim juga menjalankan eksperimen awal pada model GLM-5 skala produksi dengan 744 miliar parameter. Mereka menemukan bahwa penghapusan 75% indexer menggunakan metode tanpa pelatihan memberikan setidaknya kecepatan 1,3 kali lipat pada konteks di atas 100K token. Pada saat yang sama, model mempertahankan rata-rata kualitas yang hampir identik pada tugas konteks panjang.

Mengimplementasikan IndexCache dalam produksi

Bagi tim pengembang yang ingin menerapkan pendekatan tanpa pelatihan hari ini, prosesnya cukup sederhana, tetapi memerlukan pengaturan yang hati-hati. Meskipun algoritma pencarian serakah secara otomatis menemukan konfigurasi lapisan yang optimal, kualitas konfigurasi tersebut tergantung pada data yang diproses.

“Kami merekomendasikan menggunakan data spesifik domain sebagai dataset kalibrasi agar pola sharing lapisan yang ditemukan sesuai dengan beban kerja sebenarnya,” ujar Bai.

Setelah dikalibrasi, optimisasi ini sangat dapat diakses untuk lingkungan produksi. Patch open-source sudah tersedia di GitHub untuk mesin penyajian utama. “Integrasi relatif sederhana — pengembang dapat menerapkan patch ke tumpukan inferensi yang ada, seperti vLLM atau SGLang, dan mengaktifkan IndexCache dengan perubahan konfigurasi minimal,” tambah Bai.

Sementara IndexCache memberikan solusi instan untuk hambatan komputasi saat ini, filosofinya menunjukkan adanya pergeseran lebih luas dalam cara industri AI akan mendekati desain model ke depan.

“Model-model dasar di masa depan kemungkinan akan dirancang dengan batasan inferensi di hilir sejak awal,” simpul Bai. “Ini berarti desain yang tidak hanya dapat diskalakan dari segi ukuran model, tetapi juga dioptimalkan untuk throughput dan latensi dunia nyata, bukan sekadar memperlakukan ini sebagai masalah setelahnya.”

DITANDAI:breakingfeatured
Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya Perubahan Penting yang Harus Dilakukan Setiap Pendiri untuk Meraih Pertumbuhan Eksponensial Perubahan Penting yang Harus Dilakukan Setiap Pendiri untuk Meraih Pertumbuhan Eksponensial
Artikel Berikutnya Menghapus Proyek 'Zombi': Filipina Investasi Besar di Energi Angin Lepas Pantai Menghapus Proyek ‘Zombi’: Filipina Investasi Besar di Energi Angin Lepas Pantai
- Advertisement -
Ad image

Don't Miss

BTC dan ETH Stabil di Tengah Meningkatnya Aliran Institusional di Pasar Crypto Maret
BTC dan ETH Stabil di Tengah Meningkatnya Aliran Institusional di Pasar Crypto Maret
Kripto
Hainan: Dulu Surga Belanja China, Kini Beijing Ingin Lebih dari Sekadar Itu.
Hainan: Dulu Surga Belanja China, Kini Beijing Ingin Lebih dari Sekadar Itu.
Market
Uang Panas Menguasai Pembiayaan Pasar Berkembang, Peringatan Risiko dari IMF
Uang Panas Menguasai Pembiayaan Pasar Berkembang, Peringatan Risiko dari IMF
Market
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Strategi Terdesak dengan Kerugian Kertas $635M Saat Saylor Siapkan Pembelian Bitcoin Baru
Kripto

Strategi Terdesak dengan Kerugian Kertas $635M Saat Saylor Siapkan Pembelian Bitcoin Baru

Rangga
6 April 2026
Tim Cook Mundur dari Jabatan CEO Apple: Apa Dampaknya bagi Posisi Apple dalam AI dan Crypto?
Kripto

Tim Cook Mundur dari Jabatan CEO Apple: Apa Dampaknya bagi Posisi Apple dalam AI dan Crypto?

Rangga
22 April 2026
Lebih dari 40% Pasokan Bitcoin Terjebak Merugi, Kerugian Hampir Mencapai $600 Miliar
Kripto

Lebih dari 40% Pasokan Bitcoin Terjebak Merugi, Kerugian Hampir Mencapai $600 Miliar

Rangga
4 April 2026
Hasil AEW Dynamite (22 April 2026): Aksi Seru Dari Portland!
Bisnis

Hasil AEW Dynamite (22 April 2026): Aksi Seru Dari Portland!

Keenan
23 April 2026
Redwood Materials Pangkas 10% Tenaga Kerja dalam Restrukturisasi untuk Fokus pada Bisnis Penyimpanan Energi
Bisnis

Redwood Materials Pangkas 10% Tenaga Kerja dalam Restrukturisasi untuk Fokus pada Bisnis Penyimpanan Energi

Keenan
22 April 2026
Pendapatan Perplexity Meloncat 50% Berkat Peralihan ke Aplikasi AI
Market

Pendapatan Perplexity Meloncat 50% Berkat Peralihan ke Aplikasi AI

Reihan
8 April 2026
Microsoft Tegaskan, Copilot Hanya untuk Hiburan Berdasarkan Syarat Penggunaan
Bisnis

Microsoft Tegaskan, Copilot Hanya untuk Hiburan Berdasarkan Syarat Penggunaan

Keenan
6 April 2026
Pemimpin Baru dan Dana Baru: Sequoia Kumpulkan $7 Miliar untuk Perluas Investasi AI-nya
Bisnis

Pemimpin Baru dan Dana Baru: Sequoia Kumpulkan $7 Miliar untuk Perluas Investasi AI-nya

Keenan
17 April 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Kripto
  • News

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?