Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > Agen Metis Alibaba Pangkas Panggilan Alat AI Berlebih dari 98% Jadi 2% dengan Akurasi yang Meningkat
Bisnis

Agen Metis Alibaba Pangkas Panggilan Alat AI Berlebih dari 98% Jadi 2% dengan Akurasi yang Meningkat

Keenan
Terakhir diperbarui: 1 Mei 2026 8:59 AM
Oleh
Keenan
9 Menit Baca
Bagikan
Agen Metis Alibaba Pangkas Panggilan Alat AI Berlebih dari 98% Jadi 2% dengan Akurasi yang Meningkat
Bagikan

Salah satu tantangan utama dalam membangun agen AI yang efektif adalah mengajarkan mereka untuk memilih antara menggunakan alat eksternal atau mengandalkan pengetahuan internal mereka. Namun, model bahasa besar sering kali dilatih untuk secara buta memanggil alat, yang menyebabkan bottleneck latensi, biaya API yang tidak perlu, dan penurunan kemampuan penalaran akibat gangguan lingkungan.

Table of Content
  • Defisit metakognitif
  • Hierarchical Decoupled Policy Optimization
  • Agen Metis: HDPO dalam aksi

Untuk mengatasi masalah ini, para peneliti di Alibaba memperkenalkan Hierarchical Decoupled Policy Optimization (HDPO), sebuah kerangka pembelajaran penguatan yang melatih agen untuk menyeimbangkan antara efisiensi eksekusi dan akurasi tugas.

Metis, model multimodal yang mereka latih dengan menggunakan kerangka ini, berhasil mengurangi panggilan alat yang tidak perlu dari 98% menjadi hanya 2% sambil menetapkan akurasi penalaran yang baru dengan standar tinggi di berbagai tolok ukur industri. Kerangka ini membantu menciptakan agen AI yang tidak mudah terpicu dan tahu kapan harus menahan diri dari penggunaan alat, memungkinkan pengembangan sistem yang responsif dan hemat biaya.

Defisit metakognitif

Model agen saat ini menghadapi apa yang disebut peneliti sebagai “defisit metakognitif yang mendalam.” Model-model ini kesulitan memutuskan kapan harus menggunakan pengetahuan parametris internal mereka dan kapan perlu bertanya pada utilitas eksternal. Akibatnya, mereka dengan buta memanggil alat dan API, seperti pencarian web atau eksekusi kode, bahkan ketika prompt pengguna sudah mengandung semua informasi yang diperlukan untuk menyelesaikan tugas.

Perilaku memanggil alat yang sembarangan ini menciptakan hambatan operasional yang serius untuk aplikasi dunia nyata. Karena model-model ini dilatih untuk fokus hampir sepenuhnya pada penyelesaian tugas, mereka kurang peka terhadap latensi. Para agen ini sering kali mencapai tingkat panggilan alat yang terlalu tinggi. Setiap panggilan API eksternal yang tidak perlu menambah bottleneck pemrosesan serial, mengubah AI yang secara teknis mampu menjadi sistem yang lambat yang membuat frustrasi pengguna dan menghabiskan anggaran alat.

Di sisi lain, penggunaan sumber daya komputasi yang berlebihan tidak berarti meningkatkan kemampuan penalaran. Interaksi alat yang berlebihan memasukkan kebisingan ke dalam konteks model. Kebisingan ini dapat mengalihkan perhatian model, mengganggu rantai penalaran yang seharusnya kuat dan aktif merusak output akhir.

Read more  Kerangka AI Baru: Optimalkan Data Latih dan Algoritma Secara Mandiri, Lebih Unggul dari Kinerja Manusia

Untuk mengatasi masalah latensi dan biaya akibat pemanggilan alat yang buta, metode pembelajaran penguatan sebelumnya berusaha memberikan penalti pada penggunaan alat yang berlebihan dengan menggabungkan akurasi tugas dan efisiensi eksekusi menjadi satu sinyal penghargaan. Namun, desain yang terjalin ini menciptakan dilema optimisasi yang sulit diselesaikan. Jika penalti efisiensi terlalu agresif, model menjadi terlalu konservatif dan menekang penggunaan alat yang penting, mengorbankan kebenaran dalam tugas yang sulit. Sebaliknya, jika penalti lembut, sinyal optimisasi kehilangan nilainya dan tidak mencegah penggunaan alat yang berlebihan pada tugas yang lebih sederhana.

Lebih jauh lagi, penghargaan yang saling terkait ini menciptakan ambiguitas semantik, di mana trajektori yang tidak akurat dengan nol panggilan alat mungkin memberikan penghargaan yang sama dengan trajektori akurat dengan penggunaan alat yang berlebihan. Karena sinyal pelatihan untuk akurasi dan efisiensi menjadi terjalin, model tidak dapat belajar mengontrol penggunaan alat tanpa menurunkan kemampuan penalaran inti mereka.

Hierarchical Decoupled Policy Optimization

Untuk menyelesaikan dilema optimisasi dari penghargaan yang terjalin ini, para peneliti memperkenalkan HDPO. HDPO memisahkan akurasi dan efisiensi menjadi dua saluran optimisasi yang independen. Saluran akurasi berfokus pada memaksimalkan kebenaran tugas di seluruh rollout model. Saluran efisiensi mengoptimalkan ekonomi eksekusi.

HDPO menghitung sinyal pelatihan untuk kedua saluran ini secara independen dan hanya menggabungkannya pada tahap akhir perhitungan kerugian. Sinyal efisiensi bersifat kondisional terhadap saluran akurasi. Artinya, respons yang salah tidak pernah dihargai hanya karena cepat atau menggunakan lebih sedikit alat. Pemisahan ini menghindari situasi di mana gradien akurasi dan efisiensi saling membatalkan, memberikan AI sinyal pembelajaran yang bersih untuk kedua tujuan tersebut.

Karakteristik emergen yang paling kuat dari desain yang terpisah ini adalah menciptakan kurikulum kognitif yang implisit. Pada awal pelatihan, ketika model masih kesulitan dengan tugas, optimisasi didominasi oleh tujuan akurasi, memaksa model untuk mengutamakan pembelajaran penalaran dan pengetahuan yang benar. Seiring kemampuan penalaran model matang dan ia secara konsisten mencapai jawaban yang benar, sinyal efisiensi secara halus meningkat. Mekanisme ini menyebabkan model terlebih dahulu menguasai penyelesaian tugas, dan hanya kemudian menyempurnakan kemandirian dengan menghindari panggilan API yang tidak perlu dan mahal.

Read more  Solana (SOL) Terjun Bebas, Sentimen Pasar Berbalik Menjadi Negatif

Para peneliti juga mengembangkan rejim kurasi data yang ketat untuk melengkapi HDPO, yang menangani kekurangan serius yang ditemukan dalam dataset alat yang ada. Pipa kurasi data mereka mencakup tahapan fine-tuning yang diawasi (SFT) dan pembelajaran penguatan (RL).

Pada fase SFT, mereka mendapatkan data dari trajektori multimodal yang diperkuat alat yang tersedia untuk umum dan menyaringnya untuk menghapus contoh berkualitas rendah yang mengandung kegagalan eksekusi atau inkonsistensi umpan balik. Mereka juga secara agresif menyaring contoh pelatihan yang dapat diselesaikan model dasar tanpa alat. Akhirnya, menggunakan Google’s Gemini 3.1 Pro sebagai juri otomatis, mereka menyaring korpus SFT untuk hanya menyimpan contoh yang menunjukkan penggunaan alat secara strategis.

Untuk fase RL, kurasi difokuskan pada memastikan sinyal optimisasi yang stabil. Mereka menyaring prompt dengan visual yang korup atau ambiguitas semantik. Algoritma HDPO bergantung pada perbandingan respons yang benar dan salah. Jika tugasnya terlalu mudah di mana model selalu benar, atau terlalu sulit di mana model selalu gagal, tidak ada variasi matematis yang berarti untuk dipelajari. Tim hanya mempertahankan prompt yang menunjukkan campuran non-trivial dari kesuksesan dan kegagalan untuk menjamin sinyal gradien yang dapat diterapkan.

Agen Metis: HDPO dalam aksi

Untuk menguji HDPO dalam aksi, para peneliti menggunakan kerangka ini untuk mengembangkan Metis, agen penalaran multimodal yang dilengkapi dengan alat pengkodean dan pencarian. Metis dibangun di atas model bahasa-visual Qwen3-VL-8B-Instruct. Peneliti melatihnya dalam dua tahap yang berbeda. Pertama, mereka menerapkan SFT menggunakan data yang telah mereka kurasi untuk memberikan inisialisasi dingin. Selanjutnya, mereka menerapkan RL menggunakan kerangka HDPO, mengekspos model pada interaksi multi-turn di mana ia bisa memanggil alat seperti eksekusi kode Python, pencarian teks, dan pencarian gambar.

Read more  Mengapa AI Perusahaan Jadi Sorotan Utama di VivaTech 2026

Para peneliti membandingkan Metis dengan model-model visi open-source standar seperti LLaVA-OneVision, model penalaran berbasis teks, dan model agen yang canggih termasuk DeepEyes V2 dan Skywork-R1V4 dengan 30 miliar parameter. Evaluasi mencakup dua area utama: persepsi visual dan dataset pemahaman dokumen seperti HRBench dan V*Bench, serta tugas penalaran matematis dan logis yang ketat seperti WeMath dan MathVista.

Dalam semua tugas tersebut, Metis mencapai kinerja yang canggih atau sangat kompetitif, mengungguli model agen yang ada — termasuk Skywork-R1V4 yang jauh lebih besar — di seluruh tugas persepsi visual dan penalaran.

Yang tidak kalah penting adalah perilaku anekdot yang ditunjukkan Metis dalam eksperimen. Misalnya, ketika dihadapkan dengan gambar tanda museum dan diminta untuk membaca teks di tengah, model agen standar membuang waktu dengan menulis skrip Python untuk memotong gambar hanya untuk membacanya. Namun, Metis menyadari bahwa teks tersebut jelas terbaca dalam gambar mentah. Ia melewatkan penggunaan alat seluruhnya dan hanya menggunakan satu proses inferensi.

Dalam eksperimen lain, model diberikan grafik kompleks dan diminta untuk mengidentifikasi garis tertinggi kedua pada titik data tertentu dalam subplot kecil. Metis menyadari bahwa analisis visual yang rinci melebihi kemampuan resolusi asli dan tidak bisa membedakan garis yang tumpang tindih. Alih-alih menebak dari gambar penuh, ia memanggil Python untuk memotong dan memperbesar secara eksklusif pada wilayah subplot tertentu itu, memungkinkan ia untuk menemukan garis dengan benar. Ia memperlakukan kode sebagai instrumen presisi yang digunakan hanya ketika bukti visual benar-benar ambiguitas, bukan sebagai fallback default.

Para peneliti merilis Metis beserta kode untuk HDPO di bawah lisensi Apache 2.0 yang memungkinkan.

“Hasil kami menunjukkan bahwa penggunaan alat yang strategis dan kinerja penalaran yang kuat bukanlah pertukaran; melainkan, menghilangkan panggilan alat yang bising dan redundan berkontribusi langsung pada akurasi superior,” simpul para peneliti. “Secara lebih luas, pekerjaan kami menyarankan pergeseran paradigma dalam pembelajaran yang diperkuat alat: dari sekadar mengajarkan model bagaimana mengeksekusi alat, menuju pengembangan kebijaksanaan metakognitif kapan sebaiknya menahan diri dari penggunaannya.”

DITANDAI:featured
Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya Honor 600 Pro: Makin Dekat dengan iPhone, Tapi Apakah Itu Buruk untuk Android? Honor 600 Pro: Makin Dekat dengan iPhone, Tapi Apakah Itu Buruk untuk Android?
Artikel Berikutnya Pemimpin Truk Otonom China Ungkap Lompatan AI Tak Percepat Penyebaran — Simak Alasannya! Pemimpin Truk Otonom China Ungkap Lompatan AI Tak Percepat Penyebaran — Simak Alasannya!
- Advertisement -
Ad image

Don't Miss

Saham Singamas Merosot Tajam Pasca Tuduhan DOJ AS terhadap CEO Teo Siong Seng
Saham Singamas Merosot Tajam Pasca Tuduhan DOJ AS terhadap CEO Teo Siong Seng
Market
Indonesia Serahkan Pengelolaan Ekspor Komoditas ke Tangan Sentral, Ungkap Presiden
Kelompok Bisnis Indonesia Desak Kejelasan Aturan Ekspor Komoditas Baru
Market
Microsoft Atasi Masalah 'Spam' di Hasil Pencarian Windows 11 yang Membingungkan Pengguna
Microsoft Atasi Masalah ‘Spam’ di Hasil Pencarian Windows 11 yang Membingungkan Pengguna
Tech
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Kepala Futuristik AI Microsoft Ungkap Cara Pemanfaatan Copilot untuk Atasi Tantangan Riil di Perusahaan
Bisnis

Kepala Futuristik AI Microsoft Ungkap Cara Pemanfaatan Copilot untuk Atasi Tantangan Riil di Perusahaan

Keenan
6 Juni 2026
Founders Fund Luncurkan Acara Game Show Bersama Sam Altman, Palmer Luckey, dan Para Elit Teknologi Lainnya
Bisnis

Founders Fund Luncurkan Acara Game Show Bersama Sam Altman, Palmer Luckey, dan Para Elit Teknologi Lainnya

Keenan
5 Juni 2026
Agen AI Ciptakan Risiko Baru yang Butuh Pemantauan dan Pengawasan Berkelanjutan
Tech

Agen AI Ciptakan Risiko Baru yang Butuh Pemantauan dan Pengawasan Berkelanjutan

Keenan
5 Mei 2026
AMD: Harga RAM DDR5 Takkan Stabil Hingga 2028, Prediksi Ini Terlalu Optimis?
Tech

AMD: Harga RAM DDR5 Takkan Stabil Hingga 2028, Prediksi Ini Terlalu Optimis?

Keenan
11 Juni 2026
Festival Roots Picnic Go Global, Namun Philadelphia Tetap Jadi Inti!
Bisnis

Festival Roots Picnic Go Global, Namun Philadelphia Tetap Jadi Inti!

Keenan
14 Juni 2026
JPMorgan: Bitcoin Ungguli Emas dan Perak di Tengah Perang Iran
Kripto

JPMorgan: Bitcoin Ungguli Emas dan Perak di Tengah Perang Iran

Rangga
27 Maret 2026
Bitwise Ungkap: Berapa Besar Kerugian Bitcoin Anda Tergantung Lama Penahanan?
Kripto

Bitwise Ungkap: Berapa Besar Kerugian Bitcoin Anda Tergantung Lama Penahanan?

Rangga
17 April 2026
MJF Rayakan Kemenangan Gelar di AEW Dynamite: Hasil Pertandingan 27 Mei 2026
Bisnis

MJF Rayakan Kemenangan Gelar di AEW Dynamite: Hasil Pertandingan 27 Mei 2026

Keenan
28 Mei 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Tech
  • Kripto

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?