Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > Agen Metis Alibaba Pangkas Panggilan Alat AI Berlebih dari 98% Jadi 2% dengan Akurasi yang Meningkat
Bisnis

Agen Metis Alibaba Pangkas Panggilan Alat AI Berlebih dari 98% Jadi 2% dengan Akurasi yang Meningkat

Keenan
Terakhir diperbarui: 1 Mei 2026 8:59 AM
Oleh
Keenan
9 Menit Baca
Bagikan
Agen Metis Alibaba Pangkas Panggilan Alat AI Berlebih dari 98% Jadi 2% dengan Akurasi yang Meningkat
Bagikan

Salah satu tantangan utama dalam membangun agen AI yang efektif adalah mengajarkan mereka untuk memilih antara menggunakan alat eksternal atau mengandalkan pengetahuan internal mereka. Namun, model bahasa besar sering kali dilatih untuk secara buta memanggil alat, yang menyebabkan bottleneck latensi, biaya API yang tidak perlu, dan penurunan kemampuan penalaran akibat gangguan lingkungan.

Table of Content
  • Defisit metakognitif
  • Hierarchical Decoupled Policy Optimization
  • Agen Metis: HDPO dalam aksi

Untuk mengatasi masalah ini, para peneliti di Alibaba memperkenalkan Hierarchical Decoupled Policy Optimization (HDPO), sebuah kerangka pembelajaran penguatan yang melatih agen untuk menyeimbangkan antara efisiensi eksekusi dan akurasi tugas.

Metis, model multimodal yang mereka latih dengan menggunakan kerangka ini, berhasil mengurangi panggilan alat yang tidak perlu dari 98% menjadi hanya 2% sambil menetapkan akurasi penalaran yang baru dengan standar tinggi di berbagai tolok ukur industri. Kerangka ini membantu menciptakan agen AI yang tidak mudah terpicu dan tahu kapan harus menahan diri dari penggunaan alat, memungkinkan pengembangan sistem yang responsif dan hemat biaya.

Defisit metakognitif

Model agen saat ini menghadapi apa yang disebut peneliti sebagai “defisit metakognitif yang mendalam.” Model-model ini kesulitan memutuskan kapan harus menggunakan pengetahuan parametris internal mereka dan kapan perlu bertanya pada utilitas eksternal. Akibatnya, mereka dengan buta memanggil alat dan API, seperti pencarian web atau eksekusi kode, bahkan ketika prompt pengguna sudah mengandung semua informasi yang diperlukan untuk menyelesaikan tugas.

Perilaku memanggil alat yang sembarangan ini menciptakan hambatan operasional yang serius untuk aplikasi dunia nyata. Karena model-model ini dilatih untuk fokus hampir sepenuhnya pada penyelesaian tugas, mereka kurang peka terhadap latensi. Para agen ini sering kali mencapai tingkat panggilan alat yang terlalu tinggi. Setiap panggilan API eksternal yang tidak perlu menambah bottleneck pemrosesan serial, mengubah AI yang secara teknis mampu menjadi sistem yang lambat yang membuat frustrasi pengguna dan menghabiskan anggaran alat.

Di sisi lain, penggunaan sumber daya komputasi yang berlebihan tidak berarti meningkatkan kemampuan penalaran. Interaksi alat yang berlebihan memasukkan kebisingan ke dalam konteks model. Kebisingan ini dapat mengalihkan perhatian model, mengganggu rantai penalaran yang seharusnya kuat dan aktif merusak output akhir.

Read more  Perang Iran Memaksa Ekonomi Asia Hadapi Turunnya Kurs dan Lonjakan Harga Minyak

Untuk mengatasi masalah latensi dan biaya akibat pemanggilan alat yang buta, metode pembelajaran penguatan sebelumnya berusaha memberikan penalti pada penggunaan alat yang berlebihan dengan menggabungkan akurasi tugas dan efisiensi eksekusi menjadi satu sinyal penghargaan. Namun, desain yang terjalin ini menciptakan dilema optimisasi yang sulit diselesaikan. Jika penalti efisiensi terlalu agresif, model menjadi terlalu konservatif dan menekang penggunaan alat yang penting, mengorbankan kebenaran dalam tugas yang sulit. Sebaliknya, jika penalti lembut, sinyal optimisasi kehilangan nilainya dan tidak mencegah penggunaan alat yang berlebihan pada tugas yang lebih sederhana.

Lebih jauh lagi, penghargaan yang saling terkait ini menciptakan ambiguitas semantik, di mana trajektori yang tidak akurat dengan nol panggilan alat mungkin memberikan penghargaan yang sama dengan trajektori akurat dengan penggunaan alat yang berlebihan. Karena sinyal pelatihan untuk akurasi dan efisiensi menjadi terjalin, model tidak dapat belajar mengontrol penggunaan alat tanpa menurunkan kemampuan penalaran inti mereka.

Hierarchical Decoupled Policy Optimization

Untuk menyelesaikan dilema optimisasi dari penghargaan yang terjalin ini, para peneliti memperkenalkan HDPO. HDPO memisahkan akurasi dan efisiensi menjadi dua saluran optimisasi yang independen. Saluran akurasi berfokus pada memaksimalkan kebenaran tugas di seluruh rollout model. Saluran efisiensi mengoptimalkan ekonomi eksekusi.

HDPO menghitung sinyal pelatihan untuk kedua saluran ini secara independen dan hanya menggabungkannya pada tahap akhir perhitungan kerugian. Sinyal efisiensi bersifat kondisional terhadap saluran akurasi. Artinya, respons yang salah tidak pernah dihargai hanya karena cepat atau menggunakan lebih sedikit alat. Pemisahan ini menghindari situasi di mana gradien akurasi dan efisiensi saling membatalkan, memberikan AI sinyal pembelajaran yang bersih untuk kedua tujuan tersebut.

Karakteristik emergen yang paling kuat dari desain yang terpisah ini adalah menciptakan kurikulum kognitif yang implisit. Pada awal pelatihan, ketika model masih kesulitan dengan tugas, optimisasi didominasi oleh tujuan akurasi, memaksa model untuk mengutamakan pembelajaran penalaran dan pengetahuan yang benar. Seiring kemampuan penalaran model matang dan ia secara konsisten mencapai jawaban yang benar, sinyal efisiensi secara halus meningkat. Mekanisme ini menyebabkan model terlebih dahulu menguasai penyelesaian tugas, dan hanya kemudian menyempurnakan kemandirian dengan menghindari panggilan API yang tidak perlu dan mahal.

Read more  ElevenLabs Luncurkan Aplikasi Musik Berbasis AI yang Revolusioner

Para peneliti juga mengembangkan rejim kurasi data yang ketat untuk melengkapi HDPO, yang menangani kekurangan serius yang ditemukan dalam dataset alat yang ada. Pipa kurasi data mereka mencakup tahapan fine-tuning yang diawasi (SFT) dan pembelajaran penguatan (RL).

Pada fase SFT, mereka mendapatkan data dari trajektori multimodal yang diperkuat alat yang tersedia untuk umum dan menyaringnya untuk menghapus contoh berkualitas rendah yang mengandung kegagalan eksekusi atau inkonsistensi umpan balik. Mereka juga secara agresif menyaring contoh pelatihan yang dapat diselesaikan model dasar tanpa alat. Akhirnya, menggunakan Google’s Gemini 3.1 Pro sebagai juri otomatis, mereka menyaring korpus SFT untuk hanya menyimpan contoh yang menunjukkan penggunaan alat secara strategis.

Untuk fase RL, kurasi difokuskan pada memastikan sinyal optimisasi yang stabil. Mereka menyaring prompt dengan visual yang korup atau ambiguitas semantik. Algoritma HDPO bergantung pada perbandingan respons yang benar dan salah. Jika tugasnya terlalu mudah di mana model selalu benar, atau terlalu sulit di mana model selalu gagal, tidak ada variasi matematis yang berarti untuk dipelajari. Tim hanya mempertahankan prompt yang menunjukkan campuran non-trivial dari kesuksesan dan kegagalan untuk menjamin sinyal gradien yang dapat diterapkan.

Agen Metis: HDPO dalam aksi

Untuk menguji HDPO dalam aksi, para peneliti menggunakan kerangka ini untuk mengembangkan Metis, agen penalaran multimodal yang dilengkapi dengan alat pengkodean dan pencarian. Metis dibangun di atas model bahasa-visual Qwen3-VL-8B-Instruct. Peneliti melatihnya dalam dua tahap yang berbeda. Pertama, mereka menerapkan SFT menggunakan data yang telah mereka kurasi untuk memberikan inisialisasi dingin. Selanjutnya, mereka menerapkan RL menggunakan kerangka HDPO, mengekspos model pada interaksi multi-turn di mana ia bisa memanggil alat seperti eksekusi kode Python, pencarian teks, dan pencarian gambar.

Read more  Redwood Materials Pangkas 10% Tenaga Kerja dalam Restrukturisasi untuk Fokus pada Bisnis Penyimpanan Energi

Para peneliti membandingkan Metis dengan model-model visi open-source standar seperti LLaVA-OneVision, model penalaran berbasis teks, dan model agen yang canggih termasuk DeepEyes V2 dan Skywork-R1V4 dengan 30 miliar parameter. Evaluasi mencakup dua area utama: persepsi visual dan dataset pemahaman dokumen seperti HRBench dan V*Bench, serta tugas penalaran matematis dan logis yang ketat seperti WeMath dan MathVista.

Dalam semua tugas tersebut, Metis mencapai kinerja yang canggih atau sangat kompetitif, mengungguli model agen yang ada — termasuk Skywork-R1V4 yang jauh lebih besar — di seluruh tugas persepsi visual dan penalaran.

Yang tidak kalah penting adalah perilaku anekdot yang ditunjukkan Metis dalam eksperimen. Misalnya, ketika dihadapkan dengan gambar tanda museum dan diminta untuk membaca teks di tengah, model agen standar membuang waktu dengan menulis skrip Python untuk memotong gambar hanya untuk membacanya. Namun, Metis menyadari bahwa teks tersebut jelas terbaca dalam gambar mentah. Ia melewatkan penggunaan alat seluruhnya dan hanya menggunakan satu proses inferensi.

Dalam eksperimen lain, model diberikan grafik kompleks dan diminta untuk mengidentifikasi garis tertinggi kedua pada titik data tertentu dalam subplot kecil. Metis menyadari bahwa analisis visual yang rinci melebihi kemampuan resolusi asli dan tidak bisa membedakan garis yang tumpang tindih. Alih-alih menebak dari gambar penuh, ia memanggil Python untuk memotong dan memperbesar secara eksklusif pada wilayah subplot tertentu itu, memungkinkan ia untuk menemukan garis dengan benar. Ia memperlakukan kode sebagai instrumen presisi yang digunakan hanya ketika bukti visual benar-benar ambiguitas, bukan sebagai fallback default.

Para peneliti merilis Metis beserta kode untuk HDPO di bawah lisensi Apache 2.0 yang memungkinkan.

“Hasil kami menunjukkan bahwa penggunaan alat yang strategis dan kinerja penalaran yang kuat bukanlah pertukaran; melainkan, menghilangkan panggilan alat yang bising dan redundan berkontribusi langsung pada akurasi superior,” simpul para peneliti. “Secara lebih luas, pekerjaan kami menyarankan pergeseran paradigma dalam pembelajaran yang diperkuat alat: dari sekadar mengajarkan model bagaimana mengeksekusi alat, menuju pengembangan kebijaksanaan metakognitif kapan sebaiknya menahan diri dari penggunaannya.”

DITANDAI:featured
Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya Honor 600 Pro: Makin Dekat dengan iPhone, Tapi Apakah Itu Buruk untuk Android? Honor 600 Pro: Makin Dekat dengan iPhone, Tapi Apakah Itu Buruk untuk Android?
Artikel Berikutnya Pemimpin Truk Otonom China Ungkap Lompatan AI Tak Percepat Penyebaran — Simak Alasannya! Pemimpin Truk Otonom China Ungkap Lompatan AI Tak Percepat Penyebaran — Simak Alasannya!
- Advertisement -
Ad image

Don't Miss

Keppel Gugat Mitra Usaha dalam Arbitrase Terkait Kerugian 6,9 Triliun Dong di Vietnam
Keppel Gugat Mitra Usaha dalam Arbitrase Terkait Kerugian 6,9 Triliun Dong di Vietnam
Market
Para Ahli Ungkap: Penipuan SMS Global Didukung oleh CAPTCHAs Palsu, Jangan Kirim Pesan untuk Konfirmasi!
Para Ahli Ungkap: Penipuan SMS Global Didukung oleh CAPTCHAs Palsu, Jangan Kirim Pesan untuk Konfirmasi!
Tech
Kepala Keuangan ASEAN Khawatir Dampak Ketegangan Timur Tengah Terhadap Perdagangan
Negara-negara ASEAN Desak AS dan Iran Lanjutkan Dialog Perdamaian
Market
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Mengapa Metode Pembayaran Klasik Masih Menguasai Bisnis Kecil?
Bisnis

Mengapa Metode Pembayaran Klasik Masih Menguasai Bisnis Kecil?

Keenan
2 April 2026
Mengapa Banyak Perusahaan Kesulitan Mempertahankan Karyawan Jam yang Berkualitas?
Bisnis

Mengapa Banyak Perusahaan Kesulitan Mempertahankan Karyawan Jam yang Berkualitas?

Keenan
30 April 2026
Bitwise Ungkap: Berapa Besar Kerugian Bitcoin Anda Tergantung Lama Penahanan?
Kripto

Bitwise Ungkap: Berapa Besar Kerugian Bitcoin Anda Tergantung Lama Penahanan?

Rangga
17 April 2026
Jumlah Dompet XRP Mencapai 8 Juta, Volume Perdagangan Hampir Sentuh $4 Miliar!
Kripto

Jumlah Dompet XRP Mencapai 8 Juta, Volume Perdagangan Hampir Sentuh $4 Miliar!

Rangga
7 April 2026
CEO YouTube: YouTuber Terbaik Akan Selalu Menyulap Konten Dari Rumah!
Bisnis

CEO YouTube: YouTuber Terbaik Akan Selalu Menyulap Konten Dari Rumah!

Keenan
30 Maret 2026
Membangun Agen Pemrosesan Kustom dengan Efisiensi Komputasi yang Tinggi
Bisnis

Membangun Agen Pemrosesan Kustom dengan Efisiensi Komputasi yang Tinggi

Keenan
29 April 2026
Tips dan Jawaban Wordle #1768 untuk Rabu, 22 April: Siapkan Strategi Cerdas!
Bisnis

Tips dan Jawaban Wordle #1768 untuk Rabu, 22 April: Siapkan Strategi Cerdas!

Keenan
22 April 2026
Ketika Manajer Produk Meluncurkan Kode: AI Mengubah Struktur Organisasi Perangkat Lunak!
Bisnis

Ketika Manajer Produk Meluncurkan Kode: AI Mengubah Struktur Organisasi Perangkat Lunak!

Keenan
30 Maret 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Kripto
  • News

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?