Pelatihan model pemahaman AI membutuhkan sumber daya yang seringkali tidak tersedia bagi banyak tim perusahaan. Tim teknik sering kali dihadapkan pada pilihan sulit antara menyaring pengetahuan dari model yang besar dan mahal atau mengandalkan teknik pembelajaran penguatan yang memberikan umpan balik yang minim.
Para peneliti dari JD.com dan beberapa institusi akademis baru-baru ini memperkenalkan paradigma pelatihan baru yang menghindari dilema ini. Teknik yang disebut Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD) menggabungkan pelacakan kinerja yang dapat diandalkan dari pembelajaran penguatan dengan umpan balik rinci dari self-distillation.
Eksperimen menunjukkan bahwa model yang dilatih menggunakan RLSD mengungguli model yang dibuat dengan algoritma distillation dan penguatan klasik. Bagi tim perusahaan, pendekatan ini mengurangi hambatan teknis dan finansial untuk membangun model pemahaman yang disesuaikan dengan logika bisnis tertentu.
Masalah dalam pelatihan model pemahaman
Metode standar untuk melatih model pemahaman adalah Reinforcement Learning with Verifiable Rewards (RLVR). Dalam paradigma ini, model belajar melalui trial and error, dipandu oleh hasil akhir dari lingkungannya. Sebuah verifier otomatis memeriksa apakah jawaban model benar atau salah, memberikan penghargaan biner, seperti 0 atau 1.
Masalah dari RLVR adalah umpan balik yang minim dan seragam. Menurut Chenxu Yang, salah satu penulis makalah tersebut, “GRPO standar memiliki masalah kepadatan sinyal.” Jejak pemikiran yang terdiri dari ribuan token hanya mendapatkan satu penghargaan biner, dan setiap token dalam jejak tersebut menerima kredit yang sama, baik itu langkah logis penting atau frasa yang tidak penting. Akibatnya, model tidak pernah belajar langkah-langkah mana yang mengarah pada sukses atau gagalnya.
On-Policy Distillation (OPD) mengambil pendekatan berbeda. Alih-alih menunggu hasil akhir, para pengembang menggabungkan model siswa yang lebih kecil dengan model guru yang lebih besar dan mampu. Untuk setiap contoh pelatihan, siswa membandingkan responsnya dengan jawaban guru token per token. Ini memberikan umpan balik rinci kepada siswa tentang keseluruhan rantai pemikiran dan proses pembangkitan respons.
Namun, menjalankan model guru besar secara terpisah sepanjang proses pelatihan menimbulkan biaya komputasi yang besar. “Anda harus mempertahankan model guru besar selama pelatihan, yang secara kasar menggandakan penggunaan GPU Anda,” kata Yang. Selain itu, kedua model harus memiliki struktur kosakata yang sama, yang menurut Yang “secara diam-diam menghilangkan sebagian besar pengaturan cross-arsitektur, cross-modality, atau multibahasa yang sebenarnya digunakan oleh perusahaan.”
Janji dan kegagalan self-distillation
On-Policy Self-Distillation (OPSD) muncul sebagai solusi untuk mengatasi kekurangan dari dua pendekatan sebelumnya. Dalam OPSD, model yang sama berperan sebagai siswa dan guru.
Selama pelatihan, siswa menerima prompt standar, sementara guru menerima informasi istimewa, seperti kunci jawaban langkah-demi-langkah yang terverifikasi. Versi guru yang terinformasi ini kemudian mengevaluasi versi siswa, memberikan umpan balik token-per-token saat siswa berusaha memecahkan masalah hanya dengan menggunakan prompt standar.
OPSD tampaknya adalah kompromi sempurna untuk anggaran perusahaan. Ini memberikan panduan langkah demi langkah yang rinci dari OPD. Karena eliminasi kebutuhan akan model guru eksternal, ia beroperasi dengan efisiensi komputasi yang tinggi dan biaya rendah dari RLVR, hanya memerlukan satu langkah maju ekstra untuk guru.
Meski begitu, peneliti menemukan bahwa OPSD mengalami fenomena yang disebut “kebocoran informasi istimewa.” Yang menjelaskan, “Tujuannya secara struktural sangat tidak terdefinisi. Ada kesenjangan informasi satu sama lain yang tidak bisa ditutup oleh siswa… Ketika self-distillation diatur sebagai pencocokan distribusi, siswa diminta untuk meniru distribusi output penuh dari guru dalam konteks istimewa.”
Karena guru mengevaluasi siswa berdasarkan kunci jawaban tersembunyi, tujuan pelatihan memaksa model siswa untuk mempelajari frasa atau langkah-langkah yang tepat dari guru, bukan logika pemahaman yang mendasarinya. Akibatnya, model siswa mulai berhalusinasi referensi ke solusi yang tidak terlihat, yang tidak akan ia akses saat diterapkan di dunia nyata.
Secara praktik, model OPSD menunjukkan lonjakan kinerja cepat di awal pelatihan, namun kemampuan pemikirannya segera mendatar dan secara progresif menurun seiring waktu.
Memisahkan arah dari besaran dengan RLSD
Para peneliti di balik RLSD menyadari bahwa sinyal yang mengatur bagaimana model memperbarui parameternya memiliki kebutuhan yang secara fundamental asimetris. Mereka mengidentifikasi bahwa sinyal yang menentukan arah pembaruan (yaitu, apakah harus memperkuat atau menghukum perilaku) bisa minim, tetapi harus sangat dapat diandalkan, karena mengarahkan model ke arah yang salah merusak kebijakan pemikirannya.
Sementara itu, sinyal yang menentukan besaran pembaruan (yaitu, seberapa banyak kredit atau kesalahan yang layak diterima oleh langkah tertentu) mendapat manfaat dari kepadatan yang sangat tinggi agar bisa memudahkan koreksi langkah demi langkah.
RLSD dibangun berdasarkan prinsip ini dengan memisahkan arah pembaruan dari besaran pembaruan. Kerangka kerja ini membiarkan umpan balik lingkungan yang terverifikasi dari sinyal RLVR secara ketat menentukan arah pembelajaran. Model hanya menerima penguatan menyeluruh jika jawaban akhir objektifnya benar.
Dengan cara ini, guru tidak memiliki kekuatan untuk mendikte apa yang harus dihasilkan oleh model. Sebaliknya, penilaian token-per-token dari guru dialihkan untuk menentukan besaran pembaruan. Ini hanya mendistribusikan total kredit atau kesalahan di seluruh langkah individu dari jalur pemikiran model.
Perubahan ini mengubah cara model belajar dibandingkan dengan paradigma OPSD klasik. Dalam OPSD standar, tujuan pelatihan berfungsi seperti cloning perilaku, di mana model dipaksa untuk menyalin secara langsung ungkapan dan frasa guru. Ini menyebabkan siswa berhalusinasi dan membocorkan referensi pada data yang tidak dimilikinya.
Alih-alih memaksa model untuk menyalin solusi tersembunyi, RLSD memberikan sumber informasi kredit per-token yang alami dan praktis tanpa biaya.
“Intuisinya: kami tidak mengajarkan model untuk berpikir seperti guru,” kata Yang. “Kami memberitahu model, pada jalur yang dipilihnya, langkah mana dari token-nya yang benar-benar melakukan pekerjaan. Distribusi eksplorasi model tetap miliknya sendiri. Hanya alokasi kredit yang disempurnakan.”
Jika sebuah deduksi tertentu mendukung hasil yang benar, ia menerima skor lebih tinggi. Jika itu hanya kata pengisi yang tidak berguna, ia menerima skor dasar. RLSD mengeliminasi kebutuhan untuk melatih jaringan penghargaan tambahan yang kompleks, melakukan anotasi data langkah demi langkah secara manual, atau mempertahankan model guru eksternal yang besar.
Menguji RLSD
Untuk menguji RLSD, para peneliti melatih model vision-language Qwen3-VL-8B yang terbuka dan mengevaluasinya pada beberapa tolok ukur pemahaman visual. Ini termasuk MMMU untuk pertanyaan multi-disiplin tingkat perguruan tinggi, MathVista, MathVision, WeMath, dan ZeroBench, yang dirancang sebagai tolok ukur uji stres yang hampir mustahil bagi model-model canggih saat ini.
Mereka membandingkan model RLSD dengan model dasar tanpa pelatihan lanjutan, RLVR standar melalui algoritma GRPO, OPSD standar, dan kombinasi hibrida dari keduanya.
RLSD dengan signifikan mengungguli semua metode lainnya, mencapai akurasi rata-rata tertinggi 56,18% di semua lima tolok ukur. Ia mengalahkan model dasar sebesar 4,69% dan mengungguli RLVR standar sebesar 2,32%. Peningkatan ini paling terlihat dalam tugas pemahaman matematika yang kompleks, di mana RLSD mengungguli RLVR standar sebesar 3,91% pada tolok ukur MathVision.
Di luar akurasi, kerangka kerja ini menawarkan keuntungan efisiensi yang besar. “Secara konkrit, RLSD pada 200 langkah pelatihan sudah mengalahkan GRPO yang dilatih selama 400 langkah, makanya sekitar dua kali lipat kecepatan konvergensi,” kata Yang. “Dari segi biaya, satu-satunya bunga di luar pipeline GRPO normal hanyalah satu langkah maju tambahan untuk mendapatkan logits guru. Dibandingkan dengan generasi rollout… itu praktis gratis.”
Berbeda dengan OPSD, yang mengalami lonjakan kinerja dan kemudian benar-benar runtuh akibat kebocoran informasi, RLSD mempertahankan stabilitas pelatihan jangka panjang dan mencapai langit-langit kinerja yang lebih tinggi dibandingkan metode standar.
Temuan kualitatif menunjukkan bagaimana model mengubah perilaku belajarnya. Misalnya, dalam tugas penghitungan visual yang kompleks, RLVR standar melihat jawaban benar terakhir dan memberikan seluruh paragraf token pemikiran penghargaan yang sama. RLSD secara spesifik menerapkan penghargaan pada langkah-langkah pengurangan matematis yang menyelesaikan masalah, sambil aktif menurunkan bobot teks pengisi yang generik seperti “Melihat gambar, saya melihat…”.
Dalam contoh lain, model melakukan derivasi matematika yang salah berdasarkan diagram batang. Alih-alih mengklasifikasikan seluruh respons sebagai kegagalan, RLSD memfokuskan penalti terberat pada titik tepat di mana model salah membaca hubungan dari grafik tersebut, tetap netral pada sisa pengaturan logis, mengakui bahwa kerangka awalnya valid.
Ini sangat penting untuk penggunaan perusahaan yang rumit dan tidak teratur. Jika sebuah model membuat kesalahan dalam menganalisis laporan pendapatan triwulanan sepanjang 50 halaman, pengembang tidak ingin model tersebut melupakan seluruh kerangka analitisnya. Mereka hanya ingin model tersebut memperbaiki asumsi tertentu yang salah. RLSD memungkinkan model belajar dengan tepat langkah logis mana yang berharga dan mana yang cacat, token per token. Karena RLSD mencapainya dengan memanfaatkan model itu sendiri, ia memberikan model kemampuan pemikiran yang rinci sambil menjaga biaya pelatihan tetap wajar.
Bagaimana perusahaan bisa memulai
Bagi insinyur data dan tim orkestrasi AI, mengintegrasikan RLSD cukup sederhana, tetapi memerlukan pengaturan yang tepat. Persyaratan paling kritis adalah sinyal penghargaan yang dapat diverifikasi, seperti kompiler kode, pemeriksa matematika, eksekusi SQL, atau validator skema. “Tugas tanpa penghargaan yang dapat diverifikasi (dialog terbuka, penulisan suara merek) harus berada dalam pipeline berbasis preferensi,” kata Yang.
Namun, RLSD sangat fleksibel mengenai informasi istimewa yang dibutuhkan. Sementara OPSD secara struktural memerlukan jejak pemikiran penuh, memaksa perusahaan untuk membayar anotator atau menyaring dari model canggih, RLSD tidak.
“Jika Anda memiliki jejak pemikiran terverifikasi penuh, bagus, RLSD akan menggunakannya,” kata Yang. “Jika yang Anda punya hanyalah jawaban akhir yang benar, itu juga bisa digunakan… OPSD tidak memiliki fleksibilitas ini.”
Mengintegrasikan teknik ini ke dalam kerangka RL multi-modality open-source yang ada seperti veRL atau EasyR1 sangat ringan. Menurut Yang, ini tidak memerlukan penulisan ulang kerangka kerja dan langsung menyatu ke dalam tumpukan standar. Pertukaran kode hanya melibatkan perubahan puluhan baris untuk mengatur tujuan GRPO dan menyinkronkan guru dengan siswa.
Melihat ke depan, RLSD menawarkan cara yang kuat bagi perusahaan untuk memaksimalkan aset internal yang ada.
“Data proprietari yang dimiliki perusahaan di dalam perimeter mereka (manual kepatuhan, dokumentasi internal, tiket sejarah, potongan kode terverifikasi) pada dasarnya adalah informasi istimewa yang gratis,” kata Yang. “RLSD memungkinkan perusahaan memasukkan jenis data ini langsung sebagai konteks istimewa, yang mempertegas sinyal pembelajaran pada model yang lebih kecil tanpa memerlukan guru eksternal dan tanpa mengirimkan apa pun keluar dari jaringan.”

