Peneliti Kembangkan AI Pencari Sumber Terbuka, Harness-1, Ungguli GPT-5.4 dalam Mengingat Informasi Penting

Hasil kolaborasi riset antara peneliti dari University of Illinois di Urbana-Champaign (UIUC), UC Berkeley, dan platform basis data vektor AI terbuka Chroma telah melahirkan Harness-1. Ini adalah agen pencarian sumber terbuka dengan 20 miliar parameter yang dibangun di atas model OpenAI gpt-oss-20B, yang mengubah cara AI menjalankan tugas pencarian kompleks.

Table of Content

Mengungkap Benchmark (dan Mengapa Harness-1 Bisa Sangat Membantu Perusahaan)
Teknologi: Menyelesaikan Pekerjaan Rumah di Lingkungan
Melatih Harness-1: Pelajaran Berharga dalam Efisiensi Data
Produk: Aplikabilitas Perusahaan dan Generalisasi
Lisensi: Kekuatan Apache 2.0
Reaksi Komunitas: Validasi yang Menggugah

Harness-1 mencapai lompatan besar dalam performanya, dengan mampu mengingat informasi relevan dengan rata-rata 73%. Angka ini melampaui GPT-5.4 yang mendapat nilai 70.9%, serta agen pencarian open source paling akurat berikutnya, Tongyi DeepResearch 30B, hingga 11.4 poin persentase. Meskipun GPT-5.5 juga sudah ada lebih dari sebulan, peneliti tidak mengujinya karena model tersebut tidak tersedia saat mereka mengembangkan Harness-1.

Sangat penting bagi para pengembang, model dan lingkungannya sudah tersedia di bawah lisensi Apache 2.0 yang sangat permisif, beserta kode dan bobot model di Hugging Face.

Harness-1 juga menjadi bukti efektivitas inisiatif lain, Tinker, yang merupakan API pelatihan dan penyesuaian model AI berbasis web yang dikembangkan oleh Thinking Machines. Tinker digunakan secara khusus untuk melatih dan menjalankan inferensi pada Harness-1, menunjukkan bagaimana infrastruktur interaktif mendukung generasi model otonom selanjutnya.

Mengungkap Benchmark (dan Mengapa Harness-1 Bisa Sangat Membantu Perusahaan)

Untuk menguji model ini, para peneliti mengevaluasi Harness-1 serta kompetitornya dalam delapan benchmark pencarian yang sangat kompleks. Alih-alih menanyakan pertanyaan trivia sederhana, tes ini meminta AI berperilaku seperti peneliti sejati yang menyaring informasi dari berbagai sumber data yang padat.

Benchmark tersebut meliputi pencarian di web terbuka, dokumen keuangan kompleks dari SEC, database paten teknis dari USPTO, serta tugas tanya-jawab “multi-hop” di mana AI harus menggabungkan petunjuk dari beberapa dokumen untuk menemukan jawaban yang benar.

Dengan hasil yang didapat, Harness-1 sangat unggul dalam menemukan dan mengkurasi fakta yang tepat. Bahkan, model 20 miliar parameter ini mampu bersaing dengan sistem AI proprietary yang jauh lebih besar dan mahal. Harness-1 mengungguli raksasa seperti GPT-5.4 dan Sonnet-4.6 yang believed memiliki parameter ratusan miliar atau triliunan. Hanya satu model frontier besar, Opus-4.6, yang berhasil mengungguli Harness-1 dalam performa rata-rata.

Perolehan performa ini didapat dengan memindahkan “pencatatan” sesi pencarian ke lingkungan perangkat lunak yang terstruktur, keluar dari memori kerja model. Seiring semakin kompleksnya penggunaan di perusahaan, di mana model diharuskan menyaring ribuan dokumen korporat atau dokumen keuangan, sistem sering terjebak dalam “amnesia pencarian” â€” melupakan kueri awal, berulang kali melewati dokumen yang ditolak, atau kehilangan jejak klaim yang ingin diverifikasi.

Hingga saat ini, solusi yang lazim digunakan untuk mengatasi amnesia ini adalah dengan memaksakan model untuk terus-menerus membaca transkrip tindakan mereka sendiri yang semakin meluas. Harness-1 memperkenalkan perubahan paradigma yang menunjukkan bahwa hambatan untuk kemandirian sejati AI bukan semata-mata ukuran model, tetapi lebih kepada bagaimana lingkungannya mengelola status dengan efisien.

Teknologi: Menyelesaikan Pekerjaan Rumah di Lingkungan

Untuk memahami lompatan teknis dari Harness-1, bayangkan Anda merekrut asisten riset yang brilian dan menempatkannya di ruangan kosong tanpa meja, buku catatan, atau lemari arsip. Anda meminta mereka untuk menyusun laporan komprehensif tentang topik yang sangat kompleks, yang mensyaratkan mereka membaca puluhan buku dan mengingat setiap kutipan serta pencarian yang tidak berhasil dalam kepala mereka. Tanpa dipungkiri, beban kognitif mereka akan segera maksimal dan mereka mulai melupakan fakta atau kehilangan jejak tugas tersebut.

Kondisi ini mirip dengan cara kerja agen pencarian tradisional saat ini. Mereka dilatih dengan kebijakan berdasarkan transkrip yang terus tumbuh, memaksa model untuk melakukan pencarian dan membaca, kemudian menambahkan semua informasi itu ke dalam konteks mereka sendiri. Dengan memisahkan pemilihan semantis dari pengelolaan status struktural, AI terbebas untuk melakukan apa yang mereka lakukan dengan baik.

Seperti yang dicatat peneliti utama Patrick (Pengcheng) Jiang dari University of Illinois di X, “Pada suatu titik model tidak hanya ‘mencari’ lagi. Ini juga diminta untuk menjadi sistem memori, pencatat, verifier, dan pustakawan.”

Harness-1 memecahkan masalah ini dengan memberikan AI meja kerja dan lemari arsipâ€”yang disebut tim riset sebagai “harness eksternal.”

Dengan memisahkan pilihan semantis dari pengelolaan status struktural, AI benar-benar diizinkan untuk menjalankan tugas utamanya, sementara lingkungan hanya mengelola status yang diperlukan.

Melatih Harness-1: Pelajaran Berharga dalam Efisiensi Data

Pipa pelatihan Harness-1 merepresentasikan perubahan mendasar dalam pendekatan industri AI terhadap pembelajaran otonom. Sebelumnya, para pengembang menganggap agen pencarian sebagai kebijakan yang beroperasi pada transkrip besar yang terus tumbuh, memaksakan algoritma pembelajaran penguatan untuk secara bersamaan mengoptimalkan penalaran semantis dan memori mentah dari status pencarian.

Pencipta Harness-1 mengambil pendekatan yang sangat berbeda: karena “harness” mereka menangani semua pencatatan rutin seperti pemeliharaan tautan bukti dan catatan verifikasi, proses pelatihan hanya perlu mengajarkan model bagaimana cara beroperasi dengan antarmuka terstruktur ini.

Proses pelatihan diawali dengan tahap Supervised Fine-Tuning (SFT) yang sangat sempit. Alih-alih mengumpulkan petabyte data perilaku baru, tim hanya menghasilkan 899 trajektori terfilter menggunakan agen pengajar GPT-5.4 yang terhubung dengan lingkungan harness yang sama yang akan digunakan model pelajar. Tujuan dari fase SFT ini bukan untuk menyisipkan pengetahuan domain yang luas ke dalam model, tetapi hanya untuk mengajarinya ritme mekanis menjadi seorang peneliti yang baik.

Setelah fase SFT, model masuk ke dalam pembelajaran penguatan (RL) menggunakan algoritma bernama CISPO, diterapkan pada episode pencarian penuh yang dibatasi hingga 40 putaran. Tim mendesain fungsi imbalan terminal yang jelas memisahkan penemuan dari pemilihan, memberikan imbalan tidak hanya untuk menemukan dokumen relevan tetapi juga untuk berhasil mempromosikannya ke dalam set jawaban akhir. Mereka juga memberlakukan bonus “keragaman alat”; tanpa insentif khusus ini, mereka menemukan bahwa kebijakan akan cepat mengarah pada strategi malas dengan banyak pencarian tanpa melakukan kerja keras membaca dan memverifikasi teks.

Keunggulan Harness-1 dibandingkan penelitian sebelumnya terletak pada efisiensi data yang belum pernah ada sebelumnya. Seluruh model dilatih pada sekitar 4,400 item unik, yang terdiri dari 899 trajektori SFT dan 3,453 kueri RL. Sementara itu, model-model open-source pesaing memerlukan dataset yang jauh lebih besar untuk mencapai hasil yang lebih buruk: Context-1 memanfaatkan lebih dari 17,200 item pelatihan, sementara Search-R1 bergantung pada 221,300 item untuk mempelajari perilaku pencarian.

Produk: Aplikabilitas Perusahaan dan Generalisasi

Dari perspektif produk, Harness-1 hadir sebagai agen berkemampuan tinggi yang terintegrasi ke dalam arsitektur dasar openai/gpt-oss-20b. Untuk tumpukan teknologi perusahaan, aplikabilitasnya sangat besar karena bisnis membutuhkan AI untuk menjalankan penelitian multi-langkah di database kepemilikan tanpa membuat kesalahan atau menghabiskan biaya komputasi yang luar biasa. Harness-1 mengelola performanya yang setara dengan tingkat biaya dan latensi Context-1. Karena jendela konteks dikelola dengan ketat oleh harness yang peka terhadap anggaran, perusahaan dapat menerapkan agen ini secara otonom tanpa biaya token yang eksponensial yang biasanya terkait dengan tugas AI jangka panjang.

Lebih mengesankan lagi, Harness-1 membuktikan dapat menggeneralisasi dengan baik melampaui data pelatihannya. Menurut tim riset, biaya pelatihannya sangat rendah, menggunakan hanya 899 trajektori SFT terfilter dan 3,453 kueri RL. “Alih-alih melatih model untuk bertahan dalam transkrip yang besar dan hanya bertambah, kami melatihnya untuk menggunakan antarmuka pencarian terstruktur: mencari, mengkurasi, meninjau, memverifikasi, dan mengajukan,” jelas Jiang.

Lisensi: Kekuatan Apache 2.0

Salah satu aspek paling signifikan dari peluncuran Harness-1 adalah lisensinya. Dalam istilah yang sederhana, Apache 2.0 adalah lisensi perangkat lunak yang sangat permissif dan ramah perusahaan yang secara mendasar memfasilitasi komersialisasi. Berbeda dengan lisensi “copyleft” (seperti GPL) yang dapat memaksa perusahaan untuk membuka kode perangkat lunak proprietary mereka jika mengintegrasikan kode tersebut, atau lisensi “hanya untuk penelitian” yang melarang penggunaan komersial sama sekali, Apache 2.0 memberikan lampu hijau bagi bisnis untuk membangun, mengubah, dan memonetisasi teknologi tersebut. Ini berarti Harness-1 dapat diintegrasikan ke dalam produk pencarian perusahaan komersial, alat pengambilan data internal, atau aplikasi AI untuk pelanggan tanpa khawatir terhadap konsekuensi hukum.

Reaksi Komunitas: Validasi yang Menggugah

Pengumuman ini jelas mengena di hati komunitas pengembang, mengkonfirmasi titik kesakitan nyata yang dihadapi insinyur saat membangun sistem otonom. Thread pengumuman multi-bagian Jiang di X segera menarik perhatian dengan lebih dari 256.1K tayangan, 3.7K suka, 2.9K bookmark, dan hampir 300 repost dalam beberapa hari. Tingginya keterlibatan ini menggarisbawahi konsensus yang berkembang dalam ruang AI bahwa cara konvensional memaksakan jendela konteks adalah suatu langkah mundur.

Ketika Jiang menulis di X, “Saya berpikir: mungkin agen pencarian buruk dalam pencarian sebagian karena kita membuat mereka melakukan semua pekerjaan rumah dalam pikiran mereka,” responsnya sangat cepat. Bagi para pengembang yang telah berjuang dengan agen AI yang lupa instruksi utama mereka, pendekatan Harness-1 terasa seperti perbaikan yang sangat dibutuhkan.

Pada akhirnya, sentimen komunitas menunjukkan pergeseran prioritas industri. Para pengembang beralih dari bertanya seberapa besar jendela konteks model AI dapat, ke bertanya seberapa efisien lingkungan model AI dapat mengelola konteks itu. Dengan membebankan pekerjaan rumahnya, Harness-1 membuktikan bahwa sistem yang lebih kecil dan lebih pintar dapat mengalahkan raksasa â€” asalkan mereka mempunyai tempat kerja yang tepat.