Salah satu tantangan utama dalam membangun agen AI yang efektif adalah mengajarkan mereka untuk memilih antara menggunakan alat eksternal atau mengandalkan pengetahuan internal mereka. Namun, model bahasa besar sering kali dilatih untuk secara buta memanggil alat, yang menyebabkan bottleneck latensi, biaya API yang tidak perlu, dan penurunan kemampuan penalaran akibat gangguan lingkungan.
Untuk mengatasi masalah ini, para peneliti di Alibaba memperkenalkan Hierarchical Decoupled Policy Optimization (HDPO), sebuah kerangka pembelajaran penguatan yang melatih agen untuk menyeimbangkan antara efisiensi eksekusi dan akurasi tugas.
Metis, model multimodal yang mereka latih dengan menggunakan kerangka ini, berhasil mengurangi panggilan alat yang tidak perlu dari 98% menjadi hanya 2% sambil menetapkan akurasi penalaran yang baru dengan standar tinggi di berbagai tolok ukur industri. Kerangka ini membantu menciptakan agen AI yang tidak mudah terpicu dan tahu kapan harus menahan diri dari penggunaan alat, memungkinkan pengembangan sistem yang responsif dan hemat biaya.
Defisit metakognitif
Model agen saat ini menghadapi apa yang disebut peneliti sebagai “defisit metakognitif yang mendalam.” Model-model ini kesulitan memutuskan kapan harus menggunakan pengetahuan parametris internal mereka dan kapan perlu bertanya pada utilitas eksternal. Akibatnya, mereka dengan buta memanggil alat dan API, seperti pencarian web atau eksekusi kode, bahkan ketika prompt pengguna sudah mengandung semua informasi yang diperlukan untuk menyelesaikan tugas.
Perilaku memanggil alat yang sembarangan ini menciptakan hambatan operasional yang serius untuk aplikasi dunia nyata. Karena model-model ini dilatih untuk fokus hampir sepenuhnya pada penyelesaian tugas, mereka kurang peka terhadap latensi. Para agen ini sering kali mencapai tingkat panggilan alat yang terlalu tinggi. Setiap panggilan API eksternal yang tidak perlu menambah bottleneck pemrosesan serial, mengubah AI yang secara teknis mampu menjadi sistem yang lambat yang membuat frustrasi pengguna dan menghabiskan anggaran alat.
Di sisi lain, penggunaan sumber daya komputasi yang berlebihan tidak berarti meningkatkan kemampuan penalaran. Interaksi alat yang berlebihan memasukkan kebisingan ke dalam konteks model. Kebisingan ini dapat mengalihkan perhatian model, mengganggu rantai penalaran yang seharusnya kuat dan aktif merusak output akhir.
Untuk mengatasi masalah latensi dan biaya akibat pemanggilan alat yang buta, metode pembelajaran penguatan sebelumnya berusaha memberikan penalti pada penggunaan alat yang berlebihan dengan menggabungkan akurasi tugas dan efisiensi eksekusi menjadi satu sinyal penghargaan. Namun, desain yang terjalin ini menciptakan dilema optimisasi yang sulit diselesaikan. Jika penalti efisiensi terlalu agresif, model menjadi terlalu konservatif dan menekang penggunaan alat yang penting, mengorbankan kebenaran dalam tugas yang sulit. Sebaliknya, jika penalti lembut, sinyal optimisasi kehilangan nilainya dan tidak mencegah penggunaan alat yang berlebihan pada tugas yang lebih sederhana.
Lebih jauh lagi, penghargaan yang saling terkait ini menciptakan ambiguitas semantik, di mana trajektori yang tidak akurat dengan nol panggilan alat mungkin memberikan penghargaan yang sama dengan trajektori akurat dengan penggunaan alat yang berlebihan. Karena sinyal pelatihan untuk akurasi dan efisiensi menjadi terjalin, model tidak dapat belajar mengontrol penggunaan alat tanpa menurunkan kemampuan penalaran inti mereka.
Hierarchical Decoupled Policy Optimization
Untuk menyelesaikan dilema optimisasi dari penghargaan yang terjalin ini, para peneliti memperkenalkan HDPO. HDPO memisahkan akurasi dan efisiensi menjadi dua saluran optimisasi yang independen. Saluran akurasi berfokus pada memaksimalkan kebenaran tugas di seluruh rollout model. Saluran efisiensi mengoptimalkan ekonomi eksekusi.
HDPO menghitung sinyal pelatihan untuk kedua saluran ini secara independen dan hanya menggabungkannya pada tahap akhir perhitungan kerugian. Sinyal efisiensi bersifat kondisional terhadap saluran akurasi. Artinya, respons yang salah tidak pernah dihargai hanya karena cepat atau menggunakan lebih sedikit alat. Pemisahan ini menghindari situasi di mana gradien akurasi dan efisiensi saling membatalkan, memberikan AI sinyal pembelajaran yang bersih untuk kedua tujuan tersebut.
Karakteristik emergen yang paling kuat dari desain yang terpisah ini adalah menciptakan kurikulum kognitif yang implisit. Pada awal pelatihan, ketika model masih kesulitan dengan tugas, optimisasi didominasi oleh tujuan akurasi, memaksa model untuk mengutamakan pembelajaran penalaran dan pengetahuan yang benar. Seiring kemampuan penalaran model matang dan ia secara konsisten mencapai jawaban yang benar, sinyal efisiensi secara halus meningkat. Mekanisme ini menyebabkan model terlebih dahulu menguasai penyelesaian tugas, dan hanya kemudian menyempurnakan kemandirian dengan menghindari panggilan API yang tidak perlu dan mahal.
Para peneliti juga mengembangkan rejim kurasi data yang ketat untuk melengkapi HDPO, yang menangani kekurangan serius yang ditemukan dalam dataset alat yang ada. Pipa kurasi data mereka mencakup tahapan fine-tuning yang diawasi (SFT) dan pembelajaran penguatan (RL).
Pada fase SFT, mereka mendapatkan data dari trajektori multimodal yang diperkuat alat yang tersedia untuk umum dan menyaringnya untuk menghapus contoh berkualitas rendah yang mengandung kegagalan eksekusi atau inkonsistensi umpan balik. Mereka juga secara agresif menyaring contoh pelatihan yang dapat diselesaikan model dasar tanpa alat. Akhirnya, menggunakan Google’s Gemini 3.1 Pro sebagai juri otomatis, mereka menyaring korpus SFT untuk hanya menyimpan contoh yang menunjukkan penggunaan alat secara strategis.
Untuk fase RL, kurasi difokuskan pada memastikan sinyal optimisasi yang stabil. Mereka menyaring prompt dengan visual yang korup atau ambiguitas semantik. Algoritma HDPO bergantung pada perbandingan respons yang benar dan salah. Jika tugasnya terlalu mudah di mana model selalu benar, atau terlalu sulit di mana model selalu gagal, tidak ada variasi matematis yang berarti untuk dipelajari. Tim hanya mempertahankan prompt yang menunjukkan campuran non-trivial dari kesuksesan dan kegagalan untuk menjamin sinyal gradien yang dapat diterapkan.
Agen Metis: HDPO dalam aksi
Untuk menguji HDPO dalam aksi, para peneliti menggunakan kerangka ini untuk mengembangkan Metis, agen penalaran multimodal yang dilengkapi dengan alat pengkodean dan pencarian. Metis dibangun di atas model bahasa-visual Qwen3-VL-8B-Instruct. Peneliti melatihnya dalam dua tahap yang berbeda. Pertama, mereka menerapkan SFT menggunakan data yang telah mereka kurasi untuk memberikan inisialisasi dingin. Selanjutnya, mereka menerapkan RL menggunakan kerangka HDPO, mengekspos model pada interaksi multi-turn di mana ia bisa memanggil alat seperti eksekusi kode Python, pencarian teks, dan pencarian gambar.
Para peneliti membandingkan Metis dengan model-model visi open-source standar seperti LLaVA-OneVision, model penalaran berbasis teks, dan model agen yang canggih termasuk DeepEyes V2 dan Skywork-R1V4 dengan 30 miliar parameter. Evaluasi mencakup dua area utama: persepsi visual dan dataset pemahaman dokumen seperti HRBench dan V*Bench, serta tugas penalaran matematis dan logis yang ketat seperti WeMath dan MathVista.
Dalam semua tugas tersebut, Metis mencapai kinerja yang canggih atau sangat kompetitif, mengungguli model agen yang ada — termasuk Skywork-R1V4 yang jauh lebih besar — di seluruh tugas persepsi visual dan penalaran.
Yang tidak kalah penting adalah perilaku anekdot yang ditunjukkan Metis dalam eksperimen. Misalnya, ketika dihadapkan dengan gambar tanda museum dan diminta untuk membaca teks di tengah, model agen standar membuang waktu dengan menulis skrip Python untuk memotong gambar hanya untuk membacanya. Namun, Metis menyadari bahwa teks tersebut jelas terbaca dalam gambar mentah. Ia melewatkan penggunaan alat seluruhnya dan hanya menggunakan satu proses inferensi.
Dalam eksperimen lain, model diberikan grafik kompleks dan diminta untuk mengidentifikasi garis tertinggi kedua pada titik data tertentu dalam subplot kecil. Metis menyadari bahwa analisis visual yang rinci melebihi kemampuan resolusi asli dan tidak bisa membedakan garis yang tumpang tindih. Alih-alih menebak dari gambar penuh, ia memanggil Python untuk memotong dan memperbesar secara eksklusif pada wilayah subplot tertentu itu, memungkinkan ia untuk menemukan garis dengan benar. Ia memperlakukan kode sebagai instrumen presisi yang digunakan hanya ketika bukti visual benar-benar ambiguitas, bukan sebagai fallback default.
Para peneliti merilis Metis beserta kode untuk HDPO di bawah lisensi Apache 2.0 yang memungkinkan.
“Hasil kami menunjukkan bahwa penggunaan alat yang strategis dan kinerja penalaran yang kuat bukanlah pertukaran; melainkan, menghilangkan panggilan alat yang bising dan redundan berkontribusi langsung pada akurasi superior,” simpul para peneliti. “Secara lebih luas, pekerjaan kami menyarankan pergeseran paradigma dalam pembelajaran yang diperkuat alat: dari sekadar mengajarkan model bagaimana mengeksekusi alat, menuju pengembangan kebijaksanaan metakognitif kapan sebaiknya menahan diri dari penggunaannya.”

