Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > IndexCache: Optimizer Perhatian Baru, Tingkatkan Kecepatan Inferensi AI Konteks Panjang hingga 1,82x!
Bisnis

IndexCache: Optimizer Perhatian Baru, Tingkatkan Kecepatan Inferensi AI Konteks Panjang hingga 1,82x!

Keenan
Terakhir diperbarui: 28 Maret 2026 11:10 AM
Oleh
Keenan
1 Tampilan
9 Menit Baca
Bagikan
IndexCache: Optimizer Perhatian Baru, Tingkatkan Kecepatan Inferensi AI Konteks Panjang hingga 1,82x!
Bagikan

Memproses 200.000 token melalui model bahasa besar itu mahal dan lambat. Semakin panjang konteksnya, semakin cepat biaya membengkak. Tim peneliti dari Tsinghua University dan Z.ai telah menciptakan teknik bernama IndexCache yang mampu mengurangi hingga 75% perhitungan yang berlebihan dalam model perhatian jarang (sparse attention), dan menghasilkan waktu respons yang lebih cepat hingga 1,82 kali lipat untuk token pertama dan 1,48 kali lipat lebih cepat dalam throughput generasi pada panjang konteks tersebut.

Table of Content
  • Hambatan DSA
  • Menyimpan perhatian dengan IndexCache
  • Peningkatan kecepatan di dunia nyata pada model produksi
  • Mengimplementasikan IndexCache dalam produksi

Teknik ini berlaku untuk model-model yang menggunakan arsitektur DeepSeek Sparse Attention, termasuk keluarga terbaru DeepSeek dan GLM. Ini membantu perusahaan memberikan pengalaman pengguna yang lebih cepat untuk model konteks panjang yang digunakan dalam produksi, dan kemampuan ini sudah terbukti dalam uji coba awal pada model GLM-5 dengan 744 miliar parameter.

Hambatan DSA

Model bahasa besar mengandalkan mekanisme self-attention, di mana model menghitung hubungan antara setiap token dalam konteksnya dan semua token sebelumnya untuk memprediksi token berikutnya. Namun, self-attention memiliki batasan serius, karena kompleksitas komputasinya meningkat secara kuadratik seiring dengan panjang urutan. Bagi aplikasi yang memerlukan jendela konteks yang panjang (seperti pemrosesan dokumen besar, alur kerja bertahap, atau pemikiran yang kompleks), pengukuran kuadratik ini menyebabkan laju inferensi yang lambat serta biaya komputasi dan memori yang signifikan.

Di situlah sparse attention menawarkan solusi yang tepat. Alih-alih menghitung hubungan antara setiap token dengan semua token sebelumnya, sparse attention mengoptimalkan prosesnya dengan memungkinkan setiap query untuk memilih dan memperhatikan hanya subset token yang paling relevan.

DeepSeek Sparse Attention (DSA) adalah implementasi efisien dari konsep ini, pertama kali diperkenalkan dalam DeepSeek-V3.2. Untuk menentukan token mana yang paling penting, DSA memperkenalkan modul “lightning indexer” di setiap lapisan model. Indexer ini memberi skor pada semua token sebelumnya dan memilih beberapa token untuk diproses oleh mekanisme perhatian inti. Dengan cara ini, DSA mengurangi beratnya komputasi perhatian inti dari kuadratik menjadi linier, yang secara signifikan mempercepat model saat tetap menjaga kualitas output.

Read more  Lonjakan Harga Minyak Tak Akan Mengganggu Perdagangan Konsumen!

Namun, peneliti menemukan adanya masalah yang tersisa: indexer DSA itu sendiri masih beroperasi pada kompleksitas kuadratik di setiap lapisan. Meskipun indexer ini lebih hemat biaya daripada proses perhatian utama, seiring panjang konteks tumbuh, waktu yang dihabiskan model untuk menjalankan indexer ini meroket. Ini sangat memperlambat model, terutama pada tahap “prefill” awal saat prompt pertama kali diproses.

Menyimpan perhatian dengan IndexCache

Untuk mengatasi kendala indexer ini, tim peneliti menemukan karakteristik penting tentang cara DSA memproses data. Subset token penting yang dipilih oleh sebuah indexer tetap stabil saat data bergerak melalui lapisan transformasi yang berurutan. Uji empiris pada model DSA menunjukkan bahwa lapisan bertetangga berbagi antara 70% dan 100% token yang dipilih.

Dengan memanfaatkan redundansi antar-lapisan ini, para peneliti mengembangkan IndexCache. Teknik ini membagi lapisan model menjadi dua kategori. Beberapa lapisan penuh (F) mempertahankan indexer mereka, secara aktif memberi skor pada token dan memilih yang paling penting untuk disimpan. Sementara itu, lapisan lainnya menjadi berbagi (S), tanpa melakukan pengindeksan dan menggunakan indeks cached dari lapisan F terdekat.

Selama inferensi, model cukup memeriksa jenis lapisan. Jika mencapai lapisan F, ia menghitung dan menyimpan indeks baru. Jika lapisan S, cukup menyalin data cached tanpa perhitungan tambahan.

Berbagai teknik optimisasi berusaha menyelesaikan hambatan perhatian dengan mengompresi KV cache, yaitu tempat di mana nilai perhatian disimpan. Berbeda dengan kompresi memori biasa, IndexCache menyerang hambatan komputasi.

“IndexCache bukan teknik kompresi atau berbagi KV cache tradisional,” ucap Yushi Bai, salah satu penulis makalah ini. “Ini menghilangkan redundansi dengan menggunakan kembali indeks antara lapisan, sehingga mengurangi komputasi, bukan hanya jejak memori.”

Read more  Kalshi Raih Penangguhan Sementara dalam Kasus Pidana di Arizona

Para peneliti mengembangkan dua pendekatan penerapan untuk IndexCache yang hanya berlaku untuk model yang menggunakan arsitektur DSA, seperti model DeepSeek terbaru dan keluarga GLM yang terkini. Untuk pengembang yang bekerja dengan model DSA siap pakai di mana pelatihan ulang tidak mungkin, mereka menciptakan metode tanpa pelatihan yang mengandalkan algoritma “pemilihan lapisan serakah.”

Dengan menjalankan dataset kalibrasi kecil melalui model, algoritma ini secara otomatis menentukan penempatan optimal lapisan F dan S tanpa pembaruan berat. Bukti empiris menunjukkan bahwa algoritma serakah ini dapat menghapus 75% indexer dengan aman sambil mempertahankan kinerja downstream model asli.

Untuk tim yang melakukan pelatihan awal atau fine-tuning model dasar mereka, peneliti mengusulkan versi yang lebih sadar pelatihan yang mengoptimalkan parameter jaringan untuk secara native mendukung sharing antar-lapisan dengan memperkenalkan “multi-layer distillation loss” selama pelatihan.

Peningkatan kecepatan di dunia nyata pada model produksi

Untuk menguji dampak IndexCache, para peneliti menerapkannya pada model GLM-4.7 Flash dengan 30 miliar parameter dan membandingkannya dengan baseline standar. Pada panjang konteks 200K, penghapusan 75% dari indexer mengurangi latensi prefill dari 19,5 detik menjadi hanya 10,7 detik, memberikan peningkatan kecepatan 1,82 kali lipat. Peningkatan kecepatan ini diharapkan lebih besar pada konteks yang lebih panjang.

Selama fase decoding, di mana model menghasilkan responsnya, IndexCache meningkatkan throughput per permintaan dari 58 token per detik menjadi 86 token per detik pada panjang konteks 200K, menghasilkan peningkatan 1,48 kali lipat. Ketika memori server jenuh dengan permintaan, total throughput decoding meningkat hingga 51%.

Bagi tim perusahaan, peningkatan efisiensi ini langsung diterjemahkan menjadi penghematan biaya. “Dalam hal ROI, IndexCache memberikan manfaat konsisten di berbagai skenario, tetapi keuntungan paling terlihat pada beban kerja konteks panjang seperti RAG, analisis dokumen, dan pipeline agentic,” kata Bai. “Dalam kasus-kasus ini, kami mengamati setidaknya pengurangan biaya deployment sekitar 20%.”

Read more  Produksi ASEAN Tertekan, Biaya Melonjak Akibat Konflik Timur Tengah

Menariknya, peningkatan efisiensi ini tidak mengorbankan kemampuan reasoning. Menggunakan pendekatan tanpa pelatihan untuk menghilangkan 75% indexer, model 30B mencocokkan skor rata-rata baseline aslinya pada benchmark konteks panjang dengan skor 49,9 dibandingkan 50,2. Pada benchmark pemecahan masalah AIME 2025 yang sangat kompleks, model yang dioptimalkan bahkan melampaui baseline asli, dengan skor 92,6 dibandingkan 91,0.

Tim juga menjalankan eksperimen awal pada model GLM-5 skala produksi dengan 744 miliar parameter. Mereka menemukan bahwa penghapusan 75% indexer menggunakan metode tanpa pelatihan memberikan setidaknya kecepatan 1,3 kali lipat pada konteks di atas 100K token. Pada saat yang sama, model mempertahankan rata-rata kualitas yang hampir identik pada tugas konteks panjang.

Mengimplementasikan IndexCache dalam produksi

Bagi tim pengembang yang ingin menerapkan pendekatan tanpa pelatihan hari ini, prosesnya cukup sederhana, tetapi memerlukan pengaturan yang hati-hati. Meskipun algoritma pencarian serakah secara otomatis menemukan konfigurasi lapisan yang optimal, kualitas konfigurasi tersebut tergantung pada data yang diproses.

“Kami merekomendasikan menggunakan data spesifik domain sebagai dataset kalibrasi agar pola sharing lapisan yang ditemukan sesuai dengan beban kerja sebenarnya,” ujar Bai.

Setelah dikalibrasi, optimisasi ini sangat dapat diakses untuk lingkungan produksi. Patch open-source sudah tersedia di GitHub untuk mesin penyajian utama. “Integrasi relatif sederhana — pengembang dapat menerapkan patch ke tumpukan inferensi yang ada, seperti vLLM atau SGLang, dan mengaktifkan IndexCache dengan perubahan konfigurasi minimal,” tambah Bai.

Sementara IndexCache memberikan solusi instan untuk hambatan komputasi saat ini, filosofinya menunjukkan adanya pergeseran lebih luas dalam cara industri AI akan mendekati desain model ke depan.

“Model-model dasar di masa depan kemungkinan akan dirancang dengan batasan inferensi di hilir sejak awal,” simpul Bai. “Ini berarti desain yang tidak hanya dapat diskalakan dari segi ukuran model, tetapi juga dioptimalkan untuk throughput dan latensi dunia nyata, bukan sekadar memperlakukan ini sebagai masalah setelahnya.”

DITANDAI:breakingfeatured
Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya Perubahan Penting yang Harus Dilakukan Setiap Pendiri untuk Meraih Pertumbuhan Eksponensial Perubahan Penting yang Harus Dilakukan Setiap Pendiri untuk Meraih Pertumbuhan Eksponensial
Artikel Berikutnya Menghapus Proyek 'Zombi': Filipina Investasi Besar di Energi Angin Lepas Pantai Menghapus Proyek ‘Zombi’: Filipina Investasi Besar di Energi Angin Lepas Pantai
- Advertisement -
Ad image

Don't Miss

Sultan Brunei Umumkan Reshuffle Kabinet, Anaknya Dipilih Jadi Menteri
Sultan Brunei Umumkan Reshuffle Kabinet, Anaknya Dipilih Jadi Menteri
Market
YouTube Transformasi Aplikasi TV Jadi Platform Belanja Satu Pintu, Kini Bisa Belanja dengan Google Pay Hanya dalam Dua Klik!
YouTube Transformasi Aplikasi TV Jadi Platform Belanja Satu Pintu, Kini Bisa Belanja dengan Google Pay Hanya dalam Dua Klik!
Tech
Gubernur Fed Miran Mundur, Dukung Warsh Sebagai Ketua Baru
Gubernur Fed Miran Mundur, Dukung Warsh Sebagai Ketua Baru
News
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Minat Terbuka Bitcoin Melonjak Drastis, Lampaui Level Tertinggi Sepanjang Masa 2025!
Kripto

Minat Terbuka Bitcoin Melonjak Drastis, Lampaui Level Tertinggi Sepanjang Masa 2025!

Rangga
10 Mei 2026
Peluncuran Ketiga Blue Origin New Glenn Gagal Tempatkan Satelit Pelanggan di Orbit yang Tepat
Bisnis

Peluncuran Ketiga Blue Origin New Glenn Gagal Tempatkan Satelit Pelanggan di Orbit yang Tepat

Keenan
20 April 2026
Hype Piala Dunia 2026 Picu Penipuan, Aplikasi Palsu, dan Ransomware Mengincar Penggemar dan Bisnis
Tech

Hype Piala Dunia 2026 Picu Penipuan, Aplikasi Palsu, dan Ransomware Mengincar Penggemar dan Bisnis

Keenan
5 Juni 2026
Fed Pertahankan Suku Bunga Stabil Meski Ada Perbedaan Pendapat
News

Fed Pertahankan Suku Bunga Stabil Meski Ada Perbedaan Pendapat

Dirga
30 April 2026
6 Buku Baru yang Mengangkat Kesehatan sebagai Strategi Bisnis Utama
Bisnis

6 Buku Baru yang Mengangkat Kesehatan sebagai Strategi Bisnis Utama

Keenan
22 April 2026
Rilis Streaming ‘Masters Of The Universe’ Diprediksi Mirip Kesuksesan ‘Project Hail Mary’
Bisnis

Rilis Streaming ‘Masters Of The Universe’ Diprediksi Mirip Kesuksesan ‘Project Hail Mary’

Keenan
7 Juni 2026
Dogecoin (DOGE) Berisiko Terkendala, Momentum Kenaikan Terhambat oleh Level Resistensi
Kripto

Dogecoin (DOGE) Berisiko Terkendala, Momentum Kenaikan Terhambat oleh Level Resistensi

Rangga
25 Mei 2026
Southeast Asia: Menyelami Potensi Baru Sambil Mengintip Bumi dari Angkasa
Market

Southeast Asia: Menyelami Potensi Baru Sambil Mengintip Bumi dari Angkasa

Reihan
8 Juni 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Tech
  • Kripto

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?