Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > Membangun Agen Pemrosesan Kustom dengan Efisiensi Komputasi yang Tinggi
Bisnis

Membangun Agen Pemrosesan Kustom dengan Efisiensi Komputasi yang Tinggi

Keenan
Terakhir diperbarui: 29 April 2026 8:44 AM
Oleh
Keenan
12 Menit Baca
Bagikan
Membangun Agen Pemrosesan Kustom dengan Efisiensi Komputasi yang Tinggi
Bagikan

Pelatihan model pemahaman AI membutuhkan sumber daya yang seringkali tidak tersedia bagi banyak tim perusahaan. Tim teknik sering kali dihadapkan pada pilihan sulit antara menyaring pengetahuan dari model yang besar dan mahal atau mengandalkan teknik pembelajaran penguatan yang memberikan umpan balik yang minim.

Table of Content
  • Masalah dalam pelatihan model pemahaman
  • Janji dan kegagalan self-distillation
  • Memisahkan arah dari besaran dengan RLSD
  • Menguji RLSD
  • Bagaimana perusahaan bisa memulai

Para peneliti dari JD.com dan beberapa institusi akademis baru-baru ini memperkenalkan paradigma pelatihan baru yang menghindari dilema ini. Teknik yang disebut Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD) menggabungkan pelacakan kinerja yang dapat diandalkan dari pembelajaran penguatan dengan umpan balik rinci dari self-distillation.

Eksperimen menunjukkan bahwa model yang dilatih menggunakan RLSD mengungguli model yang dibuat dengan algoritma distillation dan penguatan klasik. Bagi tim perusahaan, pendekatan ini mengurangi hambatan teknis dan finansial untuk membangun model pemahaman yang disesuaikan dengan logika bisnis tertentu.

Masalah dalam pelatihan model pemahaman

Metode standar untuk melatih model pemahaman adalah Reinforcement Learning with Verifiable Rewards (RLVR). Dalam paradigma ini, model belajar melalui trial and error, dipandu oleh hasil akhir dari lingkungannya. Sebuah verifier otomatis memeriksa apakah jawaban model benar atau salah, memberikan penghargaan biner, seperti 0 atau 1.

Masalah dari RLVR adalah umpan balik yang minim dan seragam. Menurut Chenxu Yang, salah satu penulis makalah tersebut, “GRPO standar memiliki masalah kepadatan sinyal.” Jejak pemikiran yang terdiri dari ribuan token hanya mendapatkan satu penghargaan biner, dan setiap token dalam jejak tersebut menerima kredit yang sama, baik itu langkah logis penting atau frasa yang tidak penting. Akibatnya, model tidak pernah belajar langkah-langkah mana yang mengarah pada sukses atau gagalnya.

On-Policy Distillation (OPD) mengambil pendekatan berbeda. Alih-alih menunggu hasil akhir, para pengembang menggabungkan model siswa yang lebih kecil dengan model guru yang lebih besar dan mampu. Untuk setiap contoh pelatihan, siswa membandingkan responsnya dengan jawaban guru token per token. Ini memberikan umpan balik rinci kepada siswa tentang keseluruhan rantai pemikiran dan proses pembangkitan respons.

Namun, menjalankan model guru besar secara terpisah sepanjang proses pelatihan menimbulkan biaya komputasi yang besar. “Anda harus mempertahankan model guru besar selama pelatihan, yang secara kasar menggandakan penggunaan GPU Anda,” kata Yang. Selain itu, kedua model harus memiliki struktur kosakata yang sama, yang menurut Yang “secara diam-diam menghilangkan sebagian besar pengaturan cross-arsitektur, cross-modality, atau multibahasa yang sebenarnya digunakan oleh perusahaan.”

Janji dan kegagalan self-distillation

On-Policy Self-Distillation (OPSD) muncul sebagai solusi untuk mengatasi kekurangan dari dua pendekatan sebelumnya. Dalam OPSD, model yang sama berperan sebagai siswa dan guru.

Read more  Netflix Raih Peringkat 1 dengan Skor 90% di Rotten Tomatoes untuk Tayangan Terbarunya!

Selama pelatihan, siswa menerima prompt standar, sementara guru menerima informasi istimewa, seperti kunci jawaban langkah-demi-langkah yang terverifikasi. Versi guru yang terinformasi ini kemudian mengevaluasi versi siswa, memberikan umpan balik token-per-token saat siswa berusaha memecahkan masalah hanya dengan menggunakan prompt standar.

OPSD tampaknya adalah kompromi sempurna untuk anggaran perusahaan. Ini memberikan panduan langkah demi langkah yang rinci dari OPD. Karena eliminasi kebutuhan akan model guru eksternal, ia beroperasi dengan efisiensi komputasi yang tinggi dan biaya rendah dari RLVR, hanya memerlukan satu langkah maju ekstra untuk guru.

Meski begitu, peneliti menemukan bahwa OPSD mengalami fenomena yang disebut “kebocoran informasi istimewa.” Yang menjelaskan, “Tujuannya secara struktural sangat tidak terdefinisi. Ada kesenjangan informasi satu sama lain yang tidak bisa ditutup oleh siswa… Ketika self-distillation diatur sebagai pencocokan distribusi, siswa diminta untuk meniru distribusi output penuh dari guru dalam konteks istimewa.”

Karena guru mengevaluasi siswa berdasarkan kunci jawaban tersembunyi, tujuan pelatihan memaksa model siswa untuk mempelajari frasa atau langkah-langkah yang tepat dari guru, bukan logika pemahaman yang mendasarinya. Akibatnya, model siswa mulai berhalusinasi referensi ke solusi yang tidak terlihat, yang tidak akan ia akses saat diterapkan di dunia nyata.

Secara praktik, model OPSD menunjukkan lonjakan kinerja cepat di awal pelatihan, namun kemampuan pemikirannya segera mendatar dan secara progresif menurun seiring waktu.

Memisahkan arah dari besaran dengan RLSD

Para peneliti di balik RLSD menyadari bahwa sinyal yang mengatur bagaimana model memperbarui parameternya memiliki kebutuhan yang secara fundamental asimetris. Mereka mengidentifikasi bahwa sinyal yang menentukan arah pembaruan (yaitu, apakah harus memperkuat atau menghukum perilaku) bisa minim, tetapi harus sangat dapat diandalkan, karena mengarahkan model ke arah yang salah merusak kebijakan pemikirannya.

Sementara itu, sinyal yang menentukan besaran pembaruan (yaitu, seberapa banyak kredit atau kesalahan yang layak diterima oleh langkah tertentu) mendapat manfaat dari kepadatan yang sangat tinggi agar bisa memudahkan koreksi langkah demi langkah.

RLSD dibangun berdasarkan prinsip ini dengan memisahkan arah pembaruan dari besaran pembaruan. Kerangka kerja ini membiarkan umpan balik lingkungan yang terverifikasi dari sinyal RLVR secara ketat menentukan arah pembelajaran. Model hanya menerima penguatan menyeluruh jika jawaban akhir objektifnya benar.

Dengan cara ini, guru tidak memiliki kekuatan untuk mendikte apa yang harus dihasilkan oleh model. Sebaliknya, penilaian token-per-token dari guru dialihkan untuk menentukan besaran pembaruan. Ini hanya mendistribusikan total kredit atau kesalahan di seluruh langkah individu dari jalur pemikiran model.

Perubahan ini mengubah cara model belajar dibandingkan dengan paradigma OPSD klasik. Dalam OPSD standar, tujuan pelatihan berfungsi seperti cloning perilaku, di mana model dipaksa untuk menyalin secara langsung ungkapan dan frasa guru. Ini menyebabkan siswa berhalusinasi dan membocorkan referensi pada data yang tidak dimilikinya.

Read more  Robinhood Perkenalkan Fitur Baru: AI Kini Bisa Perdagangan Saham dan Gunakan Kartu Anda!

Alih-alih memaksa model untuk menyalin solusi tersembunyi, RLSD memberikan sumber informasi kredit per-token yang alami dan praktis tanpa biaya.

“Intuisinya: kami tidak mengajarkan model untuk berpikir seperti guru,” kata Yang. “Kami memberitahu model, pada jalur yang dipilihnya, langkah mana dari token-nya yang benar-benar melakukan pekerjaan. Distribusi eksplorasi model tetap miliknya sendiri. Hanya alokasi kredit yang disempurnakan.”

Jika sebuah deduksi tertentu mendukung hasil yang benar, ia menerima skor lebih tinggi. Jika itu hanya kata pengisi yang tidak berguna, ia menerima skor dasar. RLSD mengeliminasi kebutuhan untuk melatih jaringan penghargaan tambahan yang kompleks, melakukan anotasi data langkah demi langkah secara manual, atau mempertahankan model guru eksternal yang besar.

Menguji RLSD

Untuk menguji RLSD, para peneliti melatih model vision-language Qwen3-VL-8B yang terbuka dan mengevaluasinya pada beberapa tolok ukur pemahaman visual. Ini termasuk MMMU untuk pertanyaan multi-disiplin tingkat perguruan tinggi, MathVista, MathVision, WeMath, dan ZeroBench, yang dirancang sebagai tolok ukur uji stres yang hampir mustahil bagi model-model canggih saat ini.

Mereka membandingkan model RLSD dengan model dasar tanpa pelatihan lanjutan, RLVR standar melalui algoritma GRPO, OPSD standar, dan kombinasi hibrida dari keduanya.

RLSD dengan signifikan mengungguli semua metode lainnya, mencapai akurasi rata-rata tertinggi 56,18% di semua lima tolok ukur. Ia mengalahkan model dasar sebesar 4,69% dan mengungguli RLVR standar sebesar 2,32%. Peningkatan ini paling terlihat dalam tugas pemahaman matematika yang kompleks, di mana RLSD mengungguli RLVR standar sebesar 3,91% pada tolok ukur MathVision.

Di luar akurasi, kerangka kerja ini menawarkan keuntungan efisiensi yang besar. “Secara konkrit, RLSD pada 200 langkah pelatihan sudah mengalahkan GRPO yang dilatih selama 400 langkah, makanya sekitar dua kali lipat kecepatan konvergensi,” kata Yang. “Dari segi biaya, satu-satunya bunga di luar pipeline GRPO normal hanyalah satu langkah maju tambahan untuk mendapatkan logits guru. Dibandingkan dengan generasi rollout… itu praktis gratis.”

Berbeda dengan OPSD, yang mengalami lonjakan kinerja dan kemudian benar-benar runtuh akibat kebocoran informasi, RLSD mempertahankan stabilitas pelatihan jangka panjang dan mencapai langit-langit kinerja yang lebih tinggi dibandingkan metode standar.

Temuan kualitatif menunjukkan bagaimana model mengubah perilaku belajarnya. Misalnya, dalam tugas penghitungan visual yang kompleks, RLVR standar melihat jawaban benar terakhir dan memberikan seluruh paragraf token pemikiran penghargaan yang sama. RLSD secara spesifik menerapkan penghargaan pada langkah-langkah pengurangan matematis yang menyelesaikan masalah, sambil aktif menurunkan bobot teks pengisi yang generik seperti “Melihat gambar, saya melihat…”.

Read more  Lulusan Gen Z Mengalihkan Perhatian ke Sektor Ini Demi Gaji yang Stabil

Dalam contoh lain, model melakukan derivasi matematika yang salah berdasarkan diagram batang. Alih-alih mengklasifikasikan seluruh respons sebagai kegagalan, RLSD memfokuskan penalti terberat pada titik tepat di mana model salah membaca hubungan dari grafik tersebut, tetap netral pada sisa pengaturan logis, mengakui bahwa kerangka awalnya valid.

Ini sangat penting untuk penggunaan perusahaan yang rumit dan tidak teratur. Jika sebuah model membuat kesalahan dalam menganalisis laporan pendapatan triwulanan sepanjang 50 halaman, pengembang tidak ingin model tersebut melupakan seluruh kerangka analitisnya. Mereka hanya ingin model tersebut memperbaiki asumsi tertentu yang salah. RLSD memungkinkan model belajar dengan tepat langkah logis mana yang berharga dan mana yang cacat, token per token. Karena RLSD mencapainya dengan memanfaatkan model itu sendiri, ia memberikan model kemampuan pemikiran yang rinci sambil menjaga biaya pelatihan tetap wajar.

Bagaimana perusahaan bisa memulai

Bagi insinyur data dan tim orkestrasi AI, mengintegrasikan RLSD cukup sederhana, tetapi memerlukan pengaturan yang tepat. Persyaratan paling kritis adalah sinyal penghargaan yang dapat diverifikasi, seperti kompiler kode, pemeriksa matematika, eksekusi SQL, atau validator skema. “Tugas tanpa penghargaan yang dapat diverifikasi (dialog terbuka, penulisan suara merek) harus berada dalam pipeline berbasis preferensi,” kata Yang.

Namun, RLSD sangat fleksibel mengenai informasi istimewa yang dibutuhkan. Sementara OPSD secara struktural memerlukan jejak pemikiran penuh, memaksa perusahaan untuk membayar anotator atau menyaring dari model canggih, RLSD tidak.

“Jika Anda memiliki jejak pemikiran terverifikasi penuh, bagus, RLSD akan menggunakannya,” kata Yang. “Jika yang Anda punya hanyalah jawaban akhir yang benar, itu juga bisa digunakan… OPSD tidak memiliki fleksibilitas ini.”

Mengintegrasikan teknik ini ke dalam kerangka RL multi-modality open-source yang ada seperti veRL atau EasyR1 sangat ringan. Menurut Yang, ini tidak memerlukan penulisan ulang kerangka kerja dan langsung menyatu ke dalam tumpukan standar. Pertukaran kode hanya melibatkan perubahan puluhan baris untuk mengatur tujuan GRPO dan menyinkronkan guru dengan siswa.

Melihat ke depan, RLSD menawarkan cara yang kuat bagi perusahaan untuk memaksimalkan aset internal yang ada.

“Data proprietari yang dimiliki perusahaan di dalam perimeter mereka (manual kepatuhan, dokumentasi internal, tiket sejarah, potongan kode terverifikasi) pada dasarnya adalah informasi istimewa yang gratis,” kata Yang. “RLSD memungkinkan perusahaan memasukkan jenis data ini langsung sebagai konteks istimewa, yang mempertegas sinyal pembelajaran pada model yang lebih kecil tanpa memerlukan guru eksternal dan tanpa mengirimkan apa pun keluar dari jaringan.”

Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya Diplomat Utama Uni Eropa Ajak Negara Asia Tenggara Cari Alternatif Minyak Rusia Diplomat Utama Uni Eropa Ajak Negara Asia Tenggara Cari Alternatif Minyak Rusia
Artikel Berikutnya Apa yang Perlu Anda Ketahui Menjelang Keputusan Suku Bunga Terbaru The Fed Rabu Ini Apa yang Perlu Anda Ketahui Menjelang Keputusan Suku Bunga Terbaru The Fed Rabu Ini
- Advertisement -
Ad image

Don't Miss

Setelah Sebulan, Ribuan Kerentanan Keamanan Ditemukan: Anthropic Ungkap Mythos Telah Identifikasi Lebih dari 10.000 Celah Serius di Sistem Perangkat Lunak Utama Dunia
Setelah Sebulan, Ribuan Kerentanan Keamanan Ditemukan: Anthropic Ungkap Mythos Telah Identifikasi Lebih dari 10.000 Celah Serius di Sistem Perangkat Lunak Utama Dunia
Tech
Vingroup Vietnam Lanjutkan Ambisi Membangun 'Stadion Terbesar di Dunia' Meski Ada Keraguan Permintaan
Vingroup Vietnam Lanjutkan Ambisi Membangun ‘Stadion Terbesar di Dunia’ Meski Ada Keraguan Permintaan
Market
Sinyal Jual Ethereum Kembali Muncul, Menandai Potensi Penurunan 63% Lagi
Sinyal Jual Ethereum Kembali Muncul, Menandai Potensi Penurunan 63% Lagi
Kripto
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Redwood Materials Kehilangan COO di Tengah PHK dan Restrukturisasi Besar-besaran
Bisnis

Redwood Materials Kehilangan COO di Tengah PHK dan Restrukturisasi Besar-besaran

Keenan
24 April 2026
LangSmith Engine Otomatisasi Proses Debugging Agen—Namun, Perusahaan Multi-Model Masih Butuh Lapisan Netral
Bisnis

LangSmith Engine Otomatisasi Proses Debugging Agen—Namun, Perusahaan Multi-Model Masih Butuh Lapisan Netral

Keenan
19 Mei 2026
SpaceX Raih Kontrak Rp 99 Triliun dari Space Force Menjelang IPO
Bisnis

SpaceX Raih Kontrak Rp 99 Triliun dari Space Force Menjelang IPO

Keenan
30 Mei 2026
Indiana Pacers Kehilangan Pilihan Draft Putaran Pertama, Kirim Pilihan Lima ke Clippers
Bisnis

Indiana Pacers Kehilangan Pilihan Draft Putaran Pertama, Kirim Pilihan Lima ke Clippers

Keenan
11 Mei 2026
Apakah Fenomena Exit Startup Sudah Berakhir atau Bertransformasi Menjadi Sesuatu yang Baru?
Bisnis

Apakah Fenomena Exit Startup Sudah Berakhir atau Bertransformasi Menjadi Sesuatu yang Baru?

Keenan
15 Juni 2026
Pendekatan Piala Dunia Bisa Buktikan Cuaca Cerah di Philadelphia Selalu Positif
Bisnis

Pendekatan Piala Dunia Bisa Buktikan Cuaca Cerah di Philadelphia Selalu Positif

Keenan
26 Mei 2026
Arsitektur Konteks Mengganti RAG Saat AI Agenik Mendorong Batas Penarikan Data Perusahaan
Bisnis

Arsitektur Konteks Mengganti RAG Saat AI Agenik Mendorong Batas Penarikan Data Perusahaan

Keenan
19 Mei 2026
Kisah Palsu Bisa Viral Dalam Hitungan Menit — Begini Cara Pemimpin Cerdas Menghadapinya
Bisnis

Kisah Palsu Bisa Viral Dalam Hitungan Menit — Begini Cara Pemimpin Cerdas Menghadapinya

Keenan
27 Maret 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Tech
  • Kripto

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?