Keterampilan agen kini jadi bagian penting dalam aplikasi AI dunia nyata. Mereka memberikan mekanisme, yaitu seperangkat instruksi yang disimpan dalam folder berkas teks berbasis markdown (.md), untuk membantu model menyesuaikan diri dengan penggunaan yang spesifik dalam dunia usaha dan alur kerja yang kompleks.
Namun, mengoptimalkan keterampilan ini adalah proses yang cukup lambat dan rentan kesalahan, karena mereka tidak bisa dilatih seperti parameter model AI yang mendasarinya. Pengguna biasanya harus memperbarui keterampilan secara manual dengan mengetik ulang instruksi di setiap berkas, melakukan “permainan tebak-tebakan” mengenai perubahan apa yang mungkin meningkatkan performa AI dan mengurangi kesalahan.
SkillOpt, kerangka kerja open-source yang dikembangkan oleh Microsoft, membawa solusi lebih baik. SkillOpt memperkenalkan seorang optimizer yang dirancang khusus untuk keterampilan agen, menjadikan dokumen keterampilan dalam format .md sebagai objek yang dapat dilatih yang berkembang berdasarkan umpan balik performa.
Framework ini menggunakan optimasi gaya deep learning untuk memungkinkan AI secara sistematis menjelajahi modifikasi pada dokumen dan menemukan kombinasi terbaik dari instruksi tersebut. Yang paling penting, semua ini dilakukan tanpa mengubah bobot model yang mendasarinya.
Dalam berbagai benchmark industri, SkillOpt berhasil mengungguli baseline yang ada, secara signifikan meningkatkan akurasi untuk model seperti GPT-5.5 dan Qwen. Hasilnya adalah seperangkat artefak keterampilan yang kompak dan dapat dipindahkan, memungkinkan agen AI menyesuaikan diri dengan domain baru tanpa kesulitan.
Tantangan Mengoptimalkan Keterampilan Agen
Keterampilan agen mengemas pengetahuan prosedural menjadi spesifikasi bahasa natural, termasuk heuristik domain, kebijakan penggunaan alat, batasan output, dan mode kegagalan yang sudah diketahui. Keterampilan ini menyediakan interface eksternal bagi agen untuk beradaptasi dengan alur kerja yang kompleks. Dalam praktiknya, keterampilan agen disimpan sebagai dokumen teks dan dimasukkan ke dalam konteks agen sebelum dieksekusi.
Salah satu keuntungan utama dari keterampilan adalah mereka dapat menyesuaikan perilaku model yang mendasarinya tanpa mengubah bobotnya. Namun, dokumen keterampilan itu sendiri perlu disesuaikan dan dioptimalkan untuk mendapatkan performa terbaik dari agen.
Meskipun pembelajaran mendalam bergantung pada kontrol matematika yang ketat untuk stabilitas, rekayasa prompt manusia sering kali bergantung pada percobaan dan kesalahan. Saat mencoba memperbarui dokumen keterampilan secara otomatis berdasarkan umpan balik, kurangnya disiplin matematika membuat teks sangat tidak stabil.
Yifan Yang, Senior Research SDE di Microsoft Research Asia, menjelaskan kepada VentureBeat bahwa masalahnya bukanlah membuat perubahan, melainkan memastikan bahwa perubahan tersebut secara matematis valid.
“Titik permasalahannya bukan apakah tim bisa mengubah suatu keterampilan, tetapi bahwa mereka tidak dapat menjamin bahwa perubahan itu adalah perbaikan,” ujar Yang. “Ada tiga mode kegagalan yang sering terjadi: tidak ada kontrol ukuran langkah, sehingga keterampilan melenceng; tidak ada validasi, jadi perbaikan yang terlihat wajar bisa dituliskan dan dapat menurunkan performa; serta tidak ada memori negatif, sehingga edit yang sama yang gagal terus kembali.”
Untuk menggambarkan betapa mudahnya performa bisa menurun ketika pengeditan tidak divalidasi secara matematis, Yang mencatat bahwa “sebuah pengeditan tanpa pembatas membuat GPT-5.5 di SpreadsheetBench turun dari 41,8 menjadi 41,1.”
Menurut Yang, mode kegagalan ini semakin diperparah dalam alur kerja multi-langkah “karena di sinilah model terdepan paling lemah dalam zero-shot. Bukan soal penalaran, tetapi disiplin prosedural: format, verifikasi diri, kebijakan alat.”
Sebelum SkillOpt, keterampilan agen umumnya dirancang secara manual, dihasilkan dalam satu kali pengambilan, atau berkembang melalui jalur revisi diri yang kurang terkontrol yang tidak bisa secara andal meningkatkan performa berdasarkan umpan balik.
Metode optimasi prompt seperti TextGrad dan GEPA memperlakukan artefak bahasa sebagai objek yang dapat dioptimalkan dan menggunakan umpan balik jalur untuk mengembangkan prompt, tetapi fokus pada konfigurasi satu prompt alih-alih menghasilkan artefak keterampilan yang dapat digunakan kembali secara permanen.
Sementara itu, metode evolusi dan penemuan keterampilan seperti EvoSkill dan Trace2Skill mengonversi pengalaman eksekusi agen menjadi pelajaran jalur untuk menyempurnakan folder keterampilan, membangun perpustakaan spesifik domain, atau melakukan pencarian evolusi.
Tapi tidak satu pun dari mereka menerapkan kontrol gaya deep learning, seperti laju pembelajaran, gerbang validasi, dan momentum, yang diperlukan untuk terus melatih satu dokumen keterampilan yang kompak.
Menerapkan Disiplin Matematika ke Teks
SkillOpt mengoptimalkan dokumen teks melalui loop usulan dan uji coba yang terpisah antara model yang menjalankan tugas dan model yang mengoptimalkan keterampilan. Proses ini berlangsung dalam beberapa langkah:
-
SkillOpt dimulai dengan dokumen keterampilan awal dan model target yang dibekukan, di mana model target menjalankan serangkaian tugas untuk menghasilkan jalur eksekusi yang berfungsi sebagai bukti untuk langkah saat ini.
-
Model optimizer offline menganalisis jalur ini, memisahkan keberhasilan dari kegagalan ke dalam minibatch. Melihat satu minibatch membantu model mengidentifikasi kesalahan prosedural sistematis ketimbang anomali sekali saja. Berdasarkan pola ini, optimizer mengusulkan perubahan struktur, seperti penambahan, penghapusan, atau penggantian pada dokumen keterampilan.
-
Perubahan yang diusulkan kemudian ditinjau untuk menyaring duplikat atau kontradiksi, dan optimizer kemudian merangking kandidat perubahan berdasarkan utilitas yang diharapkan.
-
Alih-alih menerapkan semua perubahannya, SkillOpt membatasi daftar ke anggaran edit maksimum untuk langkah tersebut, menghasilkan keterampilan kandidat.
-
Keterampilan kandidat dievaluasi berdasarkan set validasi yang disimpan dengan menggunakan model target. Jika kandidat tersebut meningkatkan skor validasi, maka diterima dan menjadi keterampilan saat ini. Jika gagal, perubahan ditolak dan dikirim ke buffer edit yang ditolak, memberikan umpan balik negatif sehingga optimizer tahu untuk tidak mengulangi kesalahan itu.
SkillOpt secara langsung mengatasi masalah memperlakukan teks sebagai objek yang dapat dilatih dengan mengimpor konsep matematika dari pembelajaran mendalam. Para penciptanya menyatakan bahwa “analogi pembelajaran mendalam bersifat operasional, bukan dekoratif,” membantu kerangka ini menghindari masalah ketidakstabilan yang terkait dengan teknik optimasi lainnya.
Anggaran pengeditan bertindak sebagai laju pembelajaran. Dengan membatasi berapa banyak pengeditan yang dapat diterapkan sekaligus, versi keterampilan dicegah untuk bergerak terlalu jauh dari keadaan sebelumnya, menjaga kesinambungan sekaligus memungkinkan prosedur baru diadopsi.
Seperti memeriksa kehilangan validasi dalam pembelajaran mendalam, contoh yang tersimpan secara ketat memastikan bahwa pengeditan teks yang terdengar masuk akal hanya dipertahankan jika secara matematis meningkatkan performa nyata agen pada pembagian validasi.
Di akhir epoch, SkillOpt melakukan pembaruan lambat dengan membandingkan tugas di bawah keterampilan epoch sebelumnya dan saat ini. Ini berfungsi sebagai istilah momentum, membawa pelajaran prosedural yang tahan lama ke depan sambil menjaganya dari pengeditan langkah cepat yang bersifat jangka pendek.
SkillOpt dalam Aksi
Untuk mengevaluasi teknik ini dalam praktik, peneliti menguji SkillOpt pada berbagai model, mulai dari model-model terdepan besar seperti GPT-5.5 hingga model tertutup dan terbuka yang lebih kecil seperti GPT-5.4-mini dan Qwen3.5-4B. Mereka juga menerapkan keterampilan ini dalam berbagai lingkungan eksekusi, menggunakan chat biasa serta harness kode kompleks seperti Codex CLI dan Claude Code.
Evaluasi mencakup berbagai benchmark industri yang meliputi pertanyaan jawaban satu-putaran, generasi kode multi-putaran yang melibatkan penggunaan alat, dan penalaran dokumen multimodal. SkillOpt diukur dibandingkan dengan beberapa baseline mulai dari tidak ada keterampilan default hingga keterampilan yang ditulis manusia dan keterampilan yang dihasilkan LLM dalam satu kali pengambilan. Ini juga dibandingkan dengan metode optimasi prompt dan evolusi keterampilan canggih, khususnya Trace2Skill, TextGrad, GEPA, dan EvoSkill.
SkillOpt mendominasi di seluruh rangkaian, terbukti sangat efektif di semua 52 kombinasi yang dievaluasi dari model, benchmark, dan harness. Terutama efektif dengan model-model terdepan, SkillOpt menghasilkan peningkatan rata-rata absolut sebesar +23.5 poin dibandingkan baseline tanpa keterampilan pada GPT-5.5. Lebih lanjut, SkillOpt melampaui baseline oracle hipotesis yang memilih metode terbaik untuk setiap masalah.
Model target kecil mengalami peningkatan relatif yang luar biasa, membuktikan bahwa berkas teks kompak dapat menyediakan pengetahuan prosedural yang tidak dimiliki pola kecil dalam bobotnya. Sebagai contoh, GPT-5.4-nano hampir menggandakan skornya pada QA dokumen multimodal dan tiga kali lipat skornya pada interaksi embodied dan pengambilan keputusan berurutan.
Benchmark akademis ini tentu berkaitan dengan masalah yang krusial di dunia usaha. Model zero-shot sering kali menghasilkan format yang tidak akurat atau gagal menggunakan alat dengan baik dalam skenario multi-langkah. Yang menjelaskan bahwa lompatan performa terbesar terjadi dalam operasi yang secara historis sulit untuk diotomatisasi secara andal oleh perusahaan.
“Ekstraksi data dokumen… angka yang tepat dari kontrak, faktur, dan formulir — otomatisasi AP, klaim, kepatuhan,” kata Yang. “Yang meningkat adalah reliabilitas: format yang tepat, verifikasi diri, output yang bisa diaudit. Dan peningkatan ini berasal dari pembelajaran prosedur, bukan menghafal jawaban.”
Bagi para pelaku industri, nilai sejati SkillOpt terletak pada portabilitas, efisiensi, dan kompatibilitasnya dengan infrastruktur yang sudah ada. Eksperimen menunjukkan bahwa framework ini tidak terikat pada harness tertentu. Selain chat dasar, loop optimasi yang sama berhasil diintegrasikan ke dalam lingkungan eksekusi yang didukung alat seperti Codex CLI dan Claude Code dengan peningkatan signifikan pada benchmark industri.
Pengembang dapat melatih keterampilan menggunakan satu loop eksekusi dan menerapkannya di yang lain. Misalnya, keterampilan spreadsheet yang dilatih sepenuhnya di dalam loop Codex dipindahkan langsung ke Claude Code dan menghasilkan peningkatan +59.7 poin dibandingkan baseline asli Claude Code tanpa perubahan lebih lanjut.
Artefak SkillOpt juga dapat dipindahkan dengan baik di berbagai skala model. Keterampilan yang dioptimalkan untuk GPT-5.4 diterapkan pada model lebih kecil seperti GPT-5.4-mini dan GPT-5.4-nano dengan hasil positif, membuktikan bahwa prosedur yang dipelajari menyandikan alur kerja yang dapat digunakan kembali, bukan hanya memanfaatkan celah arsitektur model tertentu.
Akhirnya, kerangka ini sangat efisien dalam penggunaan token dan ruang konteks. Di seluruh benchmark, keterampilan yang diterapkan tidak pernah melebihi 2.000 token, dengan panjang median sekitar 920 token. Ini menghasilkan artefak yang sangat mudah dibaca dan dapat diaudit yang dapat ditinjau dan dikelola oleh praktisi manusia dalam waktu beberapa menit.
Strategi Implementasi dan ‘Tangkapan’ untuk Perusahaan
Bagi para pemimpin teknologi perusahaan, mengadopsi kerangka baru memerlukan pemahaman tentang overhead dan batasan. Meskipun artikel penelitian mencatat bahwa token pelatihan dapat mencapai hingga 210 juta untuk benchmark akademis, kenyataannya untuk kasus penggunaan sehari-hari di perusahaan jauh lebih ringan. Jumlah token yang tinggi dalam pengujian sebagian besar disebabkan oleh penilaian ulang pada set pengujian yang besar.
“Pekerjaan nyata di awal adalah verifier dan split yang representatif. Optimizer itu ringan; harness evaluasi adalah tempat di mana rekayasa berlangsung,” jelas Yang. Ia menambahkan bahwa untuk penggunaan sehari-hari, “dalam kerangka komunitas seperti GBrain, di mana pembaruan SkillOpt berjalan di Claude Sonnet, melatih keterampilan untuk satu tugas rata-rata hanya $1–5.” Biaya optimasi ini adalah biaya satu kali yang terbayar sepenuhnya saat penerapan.
Namun, framework ini memerlukan kondisi tertentu agar dapat bekerja efektif, yaitu beberapa lusin contoh representatif dan sinyal umpan balik yang dapat diukur. Tim harus menghindari menerapkan SkillOpt untuk tugas terbuka atau subjektif. “Tanpa pemindai otomatis yang bersih, Anda harus merancang evaluator yang berbasis manusia atau model dan memantau stabilitasnya,” kata Yang.
SkillOpt juga terintegrasi dengan lancar dengan tumpukan orkestrasi yang ada, menghilangkan hambatan besar dalam adopsi. Misalnya, pengembang yang sudah menggunakan compiler pipeline dapat menjalankan kedua sistem secara harmonis. “DSPy adalah lapisan yang berbeda dan saling melengkapi,” ujar Yang. “Ini mengkompilasi pipeline LM deklaratif dan mengoptimalkan struktur program; SkillOpt mengoptimalkan status keterampilan eksternal yang dimuat agen yang dibekukan. Anda dapat menjalankannya bersamaan.”
Melihat ke depan, pengembang open-source sudah merencanakan SkillOpt untuk dijalankan secara berkala di atas jalur lalu lintas masa lalu agen mereka, menciptakan ekosistem kecil plugin kode-agen yang mampu mengoptimasi diri. Loop umpan balik berkelanjutan ini mewakili pergeseran signifikan dalam cara sistem AI beradaptasi.
“Versi berharga dari perbaikan diri adalah agen yang secara mandiri menemukan pengetahuan untuk memperbaiki perilakunya sendiri dan pengalaman pengguna, di bawah verifikasi dan audit,” ujar Yang. “Keterampilan adalah langkah pertama yang tercepat, termurah, dan paling dapat dibalik, dan pola pikir yang sama mengarah pada agen yang akhirnya mengoptimalkan diri mereka, sampai ke bobot mereka sendiri.”

