Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > PixelRAG Tumbangkan Parser Teks dalam Akurasi dan Pangkas Biaya Token AI Hingga 10 Kali Lipat
Bisnis

PixelRAG Tumbangkan Parser Teks dalam Akurasi dan Pangkas Biaya Token AI Hingga 10 Kali Lipat

Keenan
Terakhir diperbarui: 14 Juni 2026 4:23 PM
Oleh
Keenan
8 Menit Baca
Bagikan
PixelRAG Tumbangkan Parser Teks dalam Akurasi dan Pangkas Biaya Token AI Hingga 10 Kali Lipat
Bagikan

Kebanyakan jalur RAG (Retrieval-Augmented Generation) perusahaan memulai dengan cara yang sama: parser teks mengonversi halaman web dan dokumen menjadi teks biasa agar dapat dipecah dan diindeks untuk pengambilan. Namun, langkah konversi ini menghancurkan sinyal pengambilan informasi — dan menurut riset baru, itu menjadi penyebab utama kesalahan jawaban.

Table of Content
  • Parser HTML menghancurkan sinyal pengambilan yang diperlukan RAG perusahaan
  • Bagaimana PixelRAG Bekerja
  • Enam tolok ukur, penghematan token agen 10x, dan satu masalah yang belum terpecahkan
  • Kebermaknaan untuk perusahaan

Sebuah tim peneliti dari UC Berkeley, Princeton University, EPFL, dan Databricks baru saja menerbitkan makalah yang memperkenalkan PixelRAG, sebuah sistem yang melewatkan langkah konversi sama sekali. Alih-alih mem-parsing halaman menjadi teks, PixelRAG mengubahnya menjadi tangkapan layar, mengindeks gambar-gambar tersebut, dan langsung memberikan hasil yang diambil kepada model pembaca berbasis visi-bahasa. Uji coba di seluruh 30 juta tile tangkapan layar yang mencakup seluruh Wikipedia menunjukkan performa lebih baik dibandingkan RAG berbasis teks di enam tolok ukur, dengan peningkatan akurasi hingga 18,1% dibandingkan dengan baseline berbasis teks.

Tim penelitian menegaskan bahwa parser bukanlah tempat yang tepat untuk mencari solusi.

“Meningkatkan parser adalah proses tanpa akhir karena setiap situs web memerlukan penanganan khusus,” ujar Yichuan Wang, penulis utama dan mahasiswa doktoral di UC Berkeley, kepada VentureBeat. “Tujuan kami adalah menyelidiki apakah kemajuan terbaru dalam VLM (Vision-Language Models) memungkinkan kita untuk melewati seluruh masalah ini dan membangun sistem pengambilan yang berfungsi di berbagai situs web tanpa rekayasa yang spesifik untuk situs.”

Parser HTML menghancurkan sinyal pengambilan yang diperlukan RAG perusahaan

Tujuan para peneliti adalah mengembangkan arsitektur bersih dari ujung ke ujung.

“Jalur RAG web modern sering melibatkan rendering, parsing, pembersihan, pemecahan, dan banyak tahap lain yang dirancang secara manual,” kata Wang. “Setiap tahap memperkenalkan kemungkinan kesalahan berantai dan abstraksi yang menjauhkan kita dari halaman web aslinya. Kami tertarik untuk mengeksplorasi apakah kami bisa menghilangkan sebagian besar kompleksitas itu dan beroperasi langsung di halaman yang dirender.”

Read more  Senat Resmi Mengangkat Kevin Warsh sebagai Ketua Federal Reserve yang Baru

Wang juga mencatat bahwa parsing secara tidak langsung kehilangan informasi. Gambar, hierarki visual, tipografi, penekanan (misalnya teks tebal), tabel, dan tata letak biasanya dibuang atau diubah menjadi perkiraan teks yang tidak sempurna.

“Tidak peduli seberapa baik parser, beberapa informasi tetap hilang pada saat konversi,” tambahnya.

Penelitian ini mengidentifikasi tiga cara di mana RAG berbasis teks kehilangan jawaban sebelum mencapai pembaca. Ketiga faktor ini diukur menggunakan SimpleQA, sebuah tolok ukur standar dari 1.000 pertanyaan faktual Wikipedia:

  • Kerugian Parser (36,6% dari kegagalan). Konversi HTML ke teks menghancurkan konten terstruktur sehingga tidak ada potongan teks dalam korpus yang mengandung jawaban.

  • Kerugian Peringkat (55,2% dari kegagalan). Jawaban ada dalam korpus tetapi terlampaui oleh infobox yang kaya kata kunci, yang mencapai peringkat 1 untuk 75,9% pencarian, mendorong paragraf yang berisi jawaban ke peringkat 20 atau lebih rendah.

  • Kerugian Pembaca (8,2% dari kegagalan). Konten yang benar mencapai pembaca tetapi struktur yang diratakan menyebabkan atribusi yang salah.

Bagaimana PixelRAG Bekerja

Berbeda dengan LLM (Large Language Model) standar yang hanya membaca teks, model visi-bahasa menerima gambar sebagai input bersamaan dengan teks, sehingga dapat membaca halaman web yang dirender seperti cara manusia melakukannya, dengan tata letak dan struktur tetap utuh. “Untuk banyak tugas ekstraksi informasi terstruktur, kami percaya bahwa VLM modern memiliki keuntungan inheren karena mereka dapat berpikir bersama atas konten dan tata letak daripada bergantung pada representasi teks yang diratakan,” tambah Wang.

PixelRAG dibangun di atas prinsip itu, menggantikan jalur parsing teks dengan sistem empat tahap yang beroperasi sepenuhnya berdasarkan tangkapan layar yang dirender.

  • Rendering. Halaman dirender menggunakan Playwright, sebuah perpustakaan otomasi browser, pada ukuran tampilan tetap 875 piksel dan dibagi menjadi tile setinggi 1024 piksel. Tujuh juta artikel Wikipedia menghasilkan sekitar 30 juta tile. Aset dicache secara lokal dan dirender sepenuhnya offline.

  • Indeksing. Setiap tile dikodekan sebagai satu vektor berdimensi 2048 menggunakan Qwen3-VL-Embedding-2B dan disimpan dalam indeks FAISS untuk pencarian tetangga terdekat yang perkiraan. Indeks penuh mencapai sekitar 120 GB dalam format fp16 dan mendukung pembaruan inkremental tanpa perlu mengindeks ulang sepenuhnya.

  • Pemodelan. Model pengambilan disesuaikan pada data kontras sintetis yang dihasilkan dari database, menggunakan teknik hard-negative mining untuk menyaring negatif yang salah. LoRA, metode fine-tuning ringan yang memperbarui sebagian kecil bobot model, diterapkan pada backbone model bahasa dan encoder visual. Pelatihan pada sekitar 40.000 pasangan selesai dalam waktu kurang dari tiga jam di satu H100.

  • Penyimpanan. Tile tangkapan layar mentah untuk Wikipedia memerlukan 5,6 TB, tetapi pendekatan render atas permintaan mengeliminasi penyimpanan permanen: semua tile disematkan, menghapus tangkapan layar, dan merender ulang halaman sesuai permintaan pada waktu kueri. Indeks vektor memerlukan sekitar 120 GB.

Read more  Platform DeFi Drift Hentikan Setoran dan Penarikan Usai Pembobolan Jutaan Dolar Crypto

Enam tolok ukur, penghematan token agen 10x, dan satu masalah yang belum terpecahkan

Para peneliti menguji PixelRAG di enam tolok ukur mencakup QA faktual Wikipedia, pertanyaan berbasis tabel, multimodal QA, dan pengambilan berita langsung. Mereka menjelaskan bahwa PixelRAG mengungguli RAG berbasis teks di semua enam tolok ukur tersebut, termasuk tugas-tugas di mana pertanyaan dapat dijawab hanya dengan teks. Di SimpleQA, akurasi mencapai 78,8% dibandingkan 71,6% untuk parser teks terkuat, meluas menjadi 48,8% berbanding 42,5% pada pertanyaan tabel terstruktur. Tim memerlukan model kelas Qwen3-VL-4B atau lebih untuk melihat keuntungan ini, sementara model yang lebih kecil tertinggal lebih dari 12,5 poin persentase.

Keuntungan biaya agen menjadi kasus terkuat dalam jangka pendek untuk PixelRAG. Dalam pengujian tolok ukur, seorang agen AI yang menggunakan PixelRAG sebagai backend pencari menghasilkan 3,6 juta token prompt versus 37,5 juta untuk pengambilan teks, dengan biaya 2 hingga 4 kali lebih rendah dibandingkan alternatif termasuk Google, sambil mencapai akurasi yang lebih tinggi. Kompresi gambar dapat memangkas anggaran token itu hingga sepertiga lebih lanjut.

Pemecahan visual adalah masalah utama yang belum terpecahkan. Sistem RAG berbasis teks telah menghabiskan bertahun-tahun menyempurnakan cara membagi dokumen menjadi unit pengambilan yang bermakna berdasarkan topik, bagian, atau konten semantik. Saat ini, PixelRAG tidak memiliki pemecahan yang setara: ia memotong halaman berdasarkan tinggi piksel tetap, yang berarti tabel atau paragraf dapat terputus di tengah tile tanpa memperhatikan batas konten.

“Komunitas pengambilan teks telah menghabiskan bertahun-tahun mempelajari strategi pemecahan, sementara pengambilan visual menerima perhatian yang jauh lebih sedikit,” kata Wang. “Kami percaya ini adalah area penting untuk penelitian di masa depan.”

Read more  RedotPay Raih Pendaftaran VASP di Meksiko untuk Perluas Sayap di Amerika Latin

Kebermaknaan untuk perusahaan

Masalah kualitas pengambilan yang ditangani oleh PixelRAG mencerminkan pergeseran pasar yang lebih luas sudah berlangsung. Data VB Pulse Q1 2026 dari responden perusahaan kualifikasi menemukan niat untuk mengadopsi pengambilan hibrid tiga kali lipat dari 10,3% pada Januari menjadi 33,3% pada Maret, menjadi posisi strategis dengan pertumbuhan tercepat dalam dataset. Para penulis PixelRAG sendiri mengacu pada penerapan hibrid sebagai jalur paling praktis dalam jangka pendek — menambahkan pengambilan visual di atas sistem teks yang ada alih-alih menggantinya.

Bagi tim yang sudah menjalankan jalur RAG, jalur menuju penghematan itu lebih sederhana dibandingkan dengan membangun dari awal.

“Jalur praktis adalah menggunakan PixelRAG sebagai lapisan peningkatan di samping sistem pengambilan teks yang ada,” kata Wang. “Pengambilan hibrid yang menggabungkan pencarian teks dan visual adalah cara yang sederhana dan kemungkinan besar akan menjadi cara banyak penerapan produksi berkembang.”

DITANDAI:breaking
Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya IQ.wiki Kolaborasi dengan CoinGecko untuk Tingkatkan Riset Crypto dan Masuki Pasar Korea IQ.wiki Kolaborasi dengan CoinGecko untuk Tingkatkan Riset Crypto dan Masuki Pasar Korea
Artikel Berikutnya Jepang Kirim Delegasi ke Greenland untuk Tinjau Ekstraksi Bahan Baku Langka, Menurut Nikkei Jepang Kirim Delegasi ke Greenland untuk Tinjau Ekstraksi Bahan Baku Langka, Menurut Nikkei
- Advertisement -
Ad image

Don't Miss

KSL, Raksasa Properti Johor, Siapkan Transisi Kepemilikan Keluarga
KSL, Raksasa Properti Johor, Siapkan Transisi Kepemilikan Keluarga
Market
Cohere Luncurkan Agen Pengkodean Open Source yang Bekerja di Satu H100
Cohere Luncurkan Agen Pengkodean Open Source yang Bekerja di Satu H100
Bisnis
Prediksi Mantan Bos Samsung: Krisis RAM Hanya Tersisa Satu Tahun Lagi!
Prediksi Mantan Bos Samsung: Krisis RAM Hanya Tersisa Satu Tahun Lagi!
Tech
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Redwood Materials Pangkas 10% Tenaga Kerja dalam Restrukturisasi untuk Fokus pada Bisnis Penyimpanan Energi
Bisnis

Redwood Materials Pangkas 10% Tenaga Kerja dalam Restrukturisasi untuk Fokus pada Bisnis Penyimpanan Energi

Keenan
22 April 2026
NYT Rilis Bocoran dan Panduan Lengkap untuk Minggu, 24 Mei
Bisnis

NYT Rilis Bocoran dan Panduan Lengkap untuk Minggu, 24 Mei

Keenan
24 Mei 2026
“‘Teach You A Lesson’ dari Netflix: Potensi Drama Terbaik Tahun Ini!”
Bisnis

“‘Teach You A Lesson’ dari Netflix: Potensi Drama Terbaik Tahun Ini!”

Keenan
8 Juni 2026
Alumni OpenAI Diam-Diam Investasi dari Dana Baru yang Berpotensi Capai $100 Juta
Bisnis

Alumni OpenAI Diam-Diam Investasi dari Dana Baru yang Berpotensi Capai $100 Juta

Keenan
7 April 2026
Visi Pro: Perangkat Tercanggih Apple yang Masih Hidup, Siap Menginspirasi Generasi Kacamata Berikutnya!
Tech

Visi Pro: Perangkat Tercanggih Apple yang Masih Hidup, Siap Menginspirasi Generasi Kacamata Berikutnya!

Keenan
2 Mei 2026
YouTube Tahan Iklan pada Livestream saat Puncak Keterlibatan untuk Menjaga Suasana Acara!
Bisnis

YouTube Tahan Iklan pada Livestream saat Puncak Keterlibatan untuk Menjaga Suasana Acara!

Keenan
15 April 2026
BABA Luncurkan Investasi AI yang Diincar Para Analis Saham
News

BABA Luncurkan Investasi AI yang Diincar Para Analis Saham

Dirga
19 April 2026
Layanan Pengantaran Makanan Ini Buka Lowongan dengan Gaji Menarik $200.000 per Tahun!
Bisnis

Layanan Pengantaran Makanan Ini Buka Lowongan dengan Gaji Menarik $200.000 per Tahun!

Keenan
2 Juni 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Tech
  • Kripto

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?