Kebanyakan jalur RAG (Retrieval-Augmented Generation) perusahaan memulai dengan cara yang sama: parser teks mengonversi halaman web dan dokumen menjadi teks biasa agar dapat dipecah dan diindeks untuk pengambilan. Namun, langkah konversi ini menghancurkan sinyal pengambilan informasi — dan menurut riset baru, itu menjadi penyebab utama kesalahan jawaban.
Sebuah tim peneliti dari UC Berkeley, Princeton University, EPFL, dan Databricks baru saja menerbitkan makalah yang memperkenalkan PixelRAG, sebuah sistem yang melewatkan langkah konversi sama sekali. Alih-alih mem-parsing halaman menjadi teks, PixelRAG mengubahnya menjadi tangkapan layar, mengindeks gambar-gambar tersebut, dan langsung memberikan hasil yang diambil kepada model pembaca berbasis visi-bahasa. Uji coba di seluruh 30 juta tile tangkapan layar yang mencakup seluruh Wikipedia menunjukkan performa lebih baik dibandingkan RAG berbasis teks di enam tolok ukur, dengan peningkatan akurasi hingga 18,1% dibandingkan dengan baseline berbasis teks.
Tim penelitian menegaskan bahwa parser bukanlah tempat yang tepat untuk mencari solusi.
“Meningkatkan parser adalah proses tanpa akhir karena setiap situs web memerlukan penanganan khusus,” ujar Yichuan Wang, penulis utama dan mahasiswa doktoral di UC Berkeley, kepada VentureBeat. “Tujuan kami adalah menyelidiki apakah kemajuan terbaru dalam VLM (Vision-Language Models) memungkinkan kita untuk melewati seluruh masalah ini dan membangun sistem pengambilan yang berfungsi di berbagai situs web tanpa rekayasa yang spesifik untuk situs.”
Parser HTML menghancurkan sinyal pengambilan yang diperlukan RAG perusahaan
Tujuan para peneliti adalah mengembangkan arsitektur bersih dari ujung ke ujung.
“Jalur RAG web modern sering melibatkan rendering, parsing, pembersihan, pemecahan, dan banyak tahap lain yang dirancang secara manual,” kata Wang. “Setiap tahap memperkenalkan kemungkinan kesalahan berantai dan abstraksi yang menjauhkan kita dari halaman web aslinya. Kami tertarik untuk mengeksplorasi apakah kami bisa menghilangkan sebagian besar kompleksitas itu dan beroperasi langsung di halaman yang dirender.”
Wang juga mencatat bahwa parsing secara tidak langsung kehilangan informasi. Gambar, hierarki visual, tipografi, penekanan (misalnya teks tebal), tabel, dan tata letak biasanya dibuang atau diubah menjadi perkiraan teks yang tidak sempurna.
“Tidak peduli seberapa baik parser, beberapa informasi tetap hilang pada saat konversi,” tambahnya.
Penelitian ini mengidentifikasi tiga cara di mana RAG berbasis teks kehilangan jawaban sebelum mencapai pembaca. Ketiga faktor ini diukur menggunakan SimpleQA, sebuah tolok ukur standar dari 1.000 pertanyaan faktual Wikipedia:
-
Kerugian Parser (36,6% dari kegagalan). Konversi HTML ke teks menghancurkan konten terstruktur sehingga tidak ada potongan teks dalam korpus yang mengandung jawaban.
-
Kerugian Peringkat (55,2% dari kegagalan). Jawaban ada dalam korpus tetapi terlampaui oleh infobox yang kaya kata kunci, yang mencapai peringkat 1 untuk 75,9% pencarian, mendorong paragraf yang berisi jawaban ke peringkat 20 atau lebih rendah.
-
Kerugian Pembaca (8,2% dari kegagalan). Konten yang benar mencapai pembaca tetapi struktur yang diratakan menyebabkan atribusi yang salah.
Bagaimana PixelRAG Bekerja
Berbeda dengan LLM (Large Language Model) standar yang hanya membaca teks, model visi-bahasa menerima gambar sebagai input bersamaan dengan teks, sehingga dapat membaca halaman web yang dirender seperti cara manusia melakukannya, dengan tata letak dan struktur tetap utuh. “Untuk banyak tugas ekstraksi informasi terstruktur, kami percaya bahwa VLM modern memiliki keuntungan inheren karena mereka dapat berpikir bersama atas konten dan tata letak daripada bergantung pada representasi teks yang diratakan,” tambah Wang.
PixelRAG dibangun di atas prinsip itu, menggantikan jalur parsing teks dengan sistem empat tahap yang beroperasi sepenuhnya berdasarkan tangkapan layar yang dirender.
-
Rendering. Halaman dirender menggunakan Playwright, sebuah perpustakaan otomasi browser, pada ukuran tampilan tetap 875 piksel dan dibagi menjadi tile setinggi 1024 piksel. Tujuh juta artikel Wikipedia menghasilkan sekitar 30 juta tile. Aset dicache secara lokal dan dirender sepenuhnya offline.
-
Indeksing. Setiap tile dikodekan sebagai satu vektor berdimensi 2048 menggunakan Qwen3-VL-Embedding-2B dan disimpan dalam indeks FAISS untuk pencarian tetangga terdekat yang perkiraan. Indeks penuh mencapai sekitar 120 GB dalam format fp16 dan mendukung pembaruan inkremental tanpa perlu mengindeks ulang sepenuhnya.
-
Pemodelan. Model pengambilan disesuaikan pada data kontras sintetis yang dihasilkan dari database, menggunakan teknik hard-negative mining untuk menyaring negatif yang salah. LoRA, metode fine-tuning ringan yang memperbarui sebagian kecil bobot model, diterapkan pada backbone model bahasa dan encoder visual. Pelatihan pada sekitar 40.000 pasangan selesai dalam waktu kurang dari tiga jam di satu H100.
-
Penyimpanan. Tile tangkapan layar mentah untuk Wikipedia memerlukan 5,6 TB, tetapi pendekatan render atas permintaan mengeliminasi penyimpanan permanen: semua tile disematkan, menghapus tangkapan layar, dan merender ulang halaman sesuai permintaan pada waktu kueri. Indeks vektor memerlukan sekitar 120 GB.
Enam tolok ukur, penghematan token agen 10x, dan satu masalah yang belum terpecahkan
Para peneliti menguji PixelRAG di enam tolok ukur mencakup QA faktual Wikipedia, pertanyaan berbasis tabel, multimodal QA, dan pengambilan berita langsung. Mereka menjelaskan bahwa PixelRAG mengungguli RAG berbasis teks di semua enam tolok ukur tersebut, termasuk tugas-tugas di mana pertanyaan dapat dijawab hanya dengan teks. Di SimpleQA, akurasi mencapai 78,8% dibandingkan 71,6% untuk parser teks terkuat, meluas menjadi 48,8% berbanding 42,5% pada pertanyaan tabel terstruktur. Tim memerlukan model kelas Qwen3-VL-4B atau lebih untuk melihat keuntungan ini, sementara model yang lebih kecil tertinggal lebih dari 12,5 poin persentase.
Keuntungan biaya agen menjadi kasus terkuat dalam jangka pendek untuk PixelRAG. Dalam pengujian tolok ukur, seorang agen AI yang menggunakan PixelRAG sebagai backend pencari menghasilkan 3,6 juta token prompt versus 37,5 juta untuk pengambilan teks, dengan biaya 2 hingga 4 kali lebih rendah dibandingkan alternatif termasuk Google, sambil mencapai akurasi yang lebih tinggi. Kompresi gambar dapat memangkas anggaran token itu hingga sepertiga lebih lanjut.
Pemecahan visual adalah masalah utama yang belum terpecahkan. Sistem RAG berbasis teks telah menghabiskan bertahun-tahun menyempurnakan cara membagi dokumen menjadi unit pengambilan yang bermakna berdasarkan topik, bagian, atau konten semantik. Saat ini, PixelRAG tidak memiliki pemecahan yang setara: ia memotong halaman berdasarkan tinggi piksel tetap, yang berarti tabel atau paragraf dapat terputus di tengah tile tanpa memperhatikan batas konten.
“Komunitas pengambilan teks telah menghabiskan bertahun-tahun mempelajari strategi pemecahan, sementara pengambilan visual menerima perhatian yang jauh lebih sedikit,” kata Wang. “Kami percaya ini adalah area penting untuk penelitian di masa depan.”
Kebermaknaan untuk perusahaan
Masalah kualitas pengambilan yang ditangani oleh PixelRAG mencerminkan pergeseran pasar yang lebih luas sudah berlangsung. Data VB Pulse Q1 2026 dari responden perusahaan kualifikasi menemukan niat untuk mengadopsi pengambilan hibrid tiga kali lipat dari 10,3% pada Januari menjadi 33,3% pada Maret, menjadi posisi strategis dengan pertumbuhan tercepat dalam dataset. Para penulis PixelRAG sendiri mengacu pada penerapan hibrid sebagai jalur paling praktis dalam jangka pendek — menambahkan pengambilan visual di atas sistem teks yang ada alih-alih menggantinya.
Bagi tim yang sudah menjalankan jalur RAG, jalur menuju penghematan itu lebih sederhana dibandingkan dengan membangun dari awal.
“Jalur praktis adalah menggunakan PixelRAG sebagai lapisan peningkatan di samping sistem pengambilan teks yang ada,” kata Wang. “Pengambilan hibrid yang menggabungkan pencarian teks dan visual adalah cara yang sederhana dan kemungkinan besar akan menjadi cara banyak penerapan produksi berkembang.”

