Tim perusahaan terus menyaksikan fenomena yang sama berulang. Seorang agen AI mendemonstrasikan kecanggihan, beranjak ke produksi, lalu terhenti. Ia beroperasi sebentar, kemudian perlu bantuan manusia untuk memperbarui konteks dan memeriksa hasilnya, dan janji efisiensi itu menguap menjadi pengawasan. Agen tersebut mengerjakan tugasnya, sementara Anda hanya menjadi penonton. Inilah salah satu alasan banyak proyek agen tak pernah menjadi sistem produksi yang handal.
- Mengapa mengajarkan model tentang bisnis Anda tetap membuat Anda terlibat
- Sebuah jalur ketiga: menghasilkan model spesialis sesuai permintaan
- Perbandingan ketiga pendekatan
- Mengapa model yang dibangun hypernetwork meningkatkan batas otonomi
- Di mana jalur ketiga tersebut menghadapi tantangan
- Apa yang harus dibangun, dan pertanyaan yang perlu diajukan sebelum membeli
Pada sisi lain, ada keyakinan yang dipegang setiap tim: adanya agen yang dapat menyelesaikan tugas jangka panjang secara mandiri, bahkan semalaman, dan hanya membutuhkan satu orang untuk memvalidasi 10% terakhir. Apakah itu mungkin dicapai? Jawabannya tergantung pada suatu masalah yang seringkali dilewatkan dalam perbincangan orkestrasi. Ketika perusahaan AI Chroma menguji 18 model terkemuka, setiap model kehilangan akurasi seiring dengan bertambahnya input, ini terkait dengan cara kerja perhatian, bukan kekurangan yang bisa ditutup oleh model yang lebih kuat. Agen yang menerima lebih banyak data dari bisnis saat beroperasi tidak semakin stabil, melainkan semakin goyah.
Ini adalah tantangan yang dihadapi dalam balapan orkestrasi. Routing, eksekusi tahan lama, dan observabilitas semua berasumsi setiap agen sudah cukup kompeten untuk berkoordinasi sejak awal. Pertanyaan yang lebih mendalam adalah berapa lama seorang agen dapat beroperasi sebelum manusia harus turun tangan. Ini tergantung pada di mana pengetahuan perusahaan Anda berada relatif terhadap model tersebut. Keduanya harus melibatkan manusia dalam proses.
Mengapa mengajarkan model tentang bisnis Anda tetap membuat Anda terlibat
Model-model frontier semakin berkualitas, tetapi jurang ini tidak tertutup. Masalahnya bukan pada kapabilitas, melainkan pada di mana pengetahuan Anda berada terkait dengan model tersebut. Ada dua cara untuk menempatkannya. Cara pertama adalah fine-tuning, yang menyisipkan pengetahuan ke dalam bobot model. Namun, ini rentan terhadap kehilangan informasi yang fatal, masalah yang sudah diidentifikasi sejak tahun 1980-an dan hingga kini belum teratasi. Mengajarkan model sesuatu yang baru cenderung mengurangi apa yang sudah ia ketahui. Tim biasanya menghindarinya dengan mengisolasi setiap tugas dalam model yang telah disempurnakan atau adapter, yang pada gilirannya menghasilkan jumlah model yang banyak dan memicu biaya serta beban pengelolaan yang tinggi.
Cara kedua adalah pembelajaran dalam konteks, yang menghindari pelatihan ulang dengan menyisipkan kebijakan yang relevan dalam prompt saat waktu berjalan. Namun, di sinilah masalah konteks muncul. Pengambilan data dapat membatasi apa yang dimasukkan ke dalam prompt, namun kegagalan pengambilan akan tampak sama dengan jawaban yang percaya diri, dan biaya serta latensi meningkat dengan setiap token yang ditambahkan.
Kedua metode ini memiliki kesamaan. Dengan fine-tuning, model mungkin bekerja dengan kebijakan dari kuartal lalu. Dalam pembelajaran dalam konteks, ia mungkin bekerja berdasarkan detail yang hilang di tengah prompt yang panjang. Hasilnya pun tampak sama meyakinkannya, sehingga sulit untuk mengetahui bagian mana yang salah tanpa memeriksa semuanya. Itulah alasan manusia tidak pernah bisa benar-benar lepas dari proses ini.
Sebuah jalur ketiga: menghasilkan model spesialis sesuai permintaan
Pendekatan ketiga adalah beralih dari penelitian ke produk awal. Alih-alih melatih satu model atau mengisi prompt, generator membangun model kecil yang spesifik untuk tugas sesuai permintaan dari kebijakan Anda di saat inferensi. Generator ini berfungsi sebagai hypernetwork, yaitu jaringan yang output-nya adalah bobot dari jaringan lain.
Ide ini pertama kali diperkenalkan pada tahun 2016. Penerapannya untuk menghasilkan model bahasa spesialis dari teks atau dokumen adalah hal yang baru dan aktif. Sakana AI dengan Text-to-LoRA, yang dipresentasikan di ICML 2025, menghasilkan adapter model dari deskripsi bahasa sederhana dalam sekali jalan. Sistem SHINE tahun 2026 juga mendorong bahwa adaptasi hypernetwork adalah lintasan baru yang menjanjikan, karena menghindari biaya pelatihan ulang dari fine-tuning dan batasan konteks dari memberikan prompt.
Tujuan dari menghasilkan adapter alih-alih melatih dan menyimpannya adalah untuk menyatukan berbagai perpustakaan LoRAs menjadi satu jaringan yang dapat menghasilkan model sesuai permintaan, bahkan untuk tugas yang belum pernah ditemui.
Perbandingan ketiga pendekatan
| Fine-tuning | In-context / RAG | Model yang dihasilkan hypernetwork | |
| Di mana pengetahuan bisnis berada | Dalam bobot model | Dalam prompt, diperbarui di setiap pemanggilan | Dalam bobot yang dihasilkan sesuai permintaan |
| Biaya untuk memperbarui saat terjadi perubahan kebijakan | Tinggi: perlu pelatihan ulang | Rendah: cukup edit sumbernya | Rendah: cukup menghasilkan kembali |
| Kedaluwarsa | Tinggi: hanya snapshot | Rendah | Rendah: dihasilkan dari kebijakan terkini |
| Biaya dan latensi per-panggilan | Rendah | Tinggi, meningkat seiring bertambahnya konteks | Rendah saat waktu berjalan |
| Mode kegagalan dominan | Lupa; proliferasi model zoo | Kerusakan konteks; kegagalan pengambilan yang tenang | Kualitas generator; kalibrasi |
| Siapa yang memiliki aset yang meningkat | Siapa pun yang melatih model | Siapa pun yang memegang penyimpanan data | Terlihat dari si mana generator dan umpan balik berada |
Mengapa model yang dibangun hypernetwork meningkatkan batas otonomi
Model yang sempit, terkini, dan kecil memiliki permukaan kesalahan yang lebih sedikit. Dengan lebih sedikit kesalahan yang terbatas pada domain yang diketahui, artinya lebih sedikit output yang harus ditangani oleh manusia—ini adalah dasar dari klaim otonomi tinggi. Nilai otonomi yang dilaporkan harus dipahami sebagai pengukuran dari arsitektur itu sendiri, bukan sebagai pengaturan yang telah ditentukan sebelumnya.
Dua pilihan desain menentukan apakah otonomi tersebut dapat dipercaya atau hanya cepat. Yang pertama adalah grounding: mengaitkan setiap output dengan sumbernya sehingga pengulas dapat memverifikasi alih-alih melakukan ulang. Model penelitian seperti HalluGuard, yang dibangun khusus untuk ini, memberikan label pada setiap klaim dan mencantumkan bagian yang menjadi rujukan. Nace juga melengkapi agen-agen mereka dengan model grounding dan jejak penalaran demi alasan yang sama. Penilaian 10% hanya berarti berharga jika manusia dapat konfirmasi asalnya dalam waktu singkat.
Pilihan kedua adalah umpan balik, yang memunculkan pertanyaan untuk setiap pembeli: saat ahli Anda memvalidasi output, model siapa yang berkembang, dan di mana itu berjalan? Ini menentukan apakah aset yang bersifat berkembang tersebut milik vendor atau milik Anda. Keputusan bervariasi. Misalnya, Nace menggunakan jaringan eksternal dari ahli tersertifikasi untuk beberapa kerjasama, dan untuk penerapan langsung ke perusahaan, karyawan pelanggan sendiri, dengan model yang dihasilkan disimpan di cloud pelanggan. Setiap pilihan mengalihkan pembelajaran dan kepemilikan ke arah yang berbeda.
Di mana jalur ketiga tersebut menghadapi tantangan
Pendekatan ini masih dalam tahap awal, dan beberapa pertanyaan akan menentukan seberapa jauh ini berkembang. Kalibrasi adalah kunci: nilai bergantung pada seberapa baik model mengetahui saat ia tidak yakin. Penelitian terbaru menunjukkan bahwa penghasil adapter ini tidak secara otomatis meningkatkan kalibrasi dibandingkan dengan fine-tuning biasa, dengan peningkatan hanya muncul dalam batasan tertentu. Kualitas model yang dihasilkan juga bergantung pada data kebijakan yang digunakan, memerlukan kurasi data yang ekstra.
Skala menjadi frontier penelitian terbuka; hypernetwork yang telah dipublikasikan sejauh ini masih kecil. Di sinilah pekerjaan Nace menjadi menarik: dalam wawancara, perusahaan menyatakan telah memperbesar generator mereka jauh melampaui ukuran yang dipublikasikan dan telah mengembangkan hukum skala untuk pertumbuhan kinerja, hasil yang mulai dibagikan secara publik dan sekarang sedang dalam proses review. Jika hasilnya valid, ini akan membantu menjawab salah satu pertanyaan mendasar di bidang ini, dan menjadi makalah yang patut diperhatikan.
Terlepas dari pendekatan mana yang berhasil, hasil akhirnya tetap bergantung pada manusia, dan peralihan ini adalah tantangan desain tersendiri. Ketika Deloitte Australia menyampaikan laporan pemerintah senilai A$440.000, laporan tersebut mencantumkan sitasi yang dibuat-buat dan kutipan pengadilan yang tidak ada setelah melewati tinjauan senior, karena para pengulas mengecek kesimpulan yang terbukti benar, bukan asal-asalan yang salah. Penelitian dikendalikan menunjukkan pola ini bersifat umum: para ahli lebih jarang mengoreksi rekomendasi cacat yang identik ketika dilabeli sebagai hasil dari AI.
Pasal 14 dari EU AI Act kini menamai bias otomatisasi ini. Pelajarannya tidak terfokus pada vendor tertentu mana pun: sebagian besar perhatian manusia tertumpu pada bagian akhir pekerjaan yang tipis dan terlambat, sehingga nilai peninjauan tersebut tergantung pada seberapa cepat manusia dapat memeriksa asal-usul, yang kembali ke grounding.
Apa yang harus dibangun, dan pertanyaan yang perlu diajukan sebelum membeli
Pelajaran yang bisa diambil: apa yang menghambat agen Anda bukanlah orkestrasi atau ukuran model, tetapi apakah model tersebut memahami bisnis Anda dengan baik untuk bisa dibiarkan sendiri. Solusi yang tepat sangat tergantung pada pekerjaan yang dihadapi. Untuk mengotomatisasi proses panjang yang repetitive dan berbasiskan volume tinggi, jalankan sebagian besar audit internal Anda semalaman dan biarkan para ahli Anda memeriksa hasil akhirnya. Model hasil hypernetwork adalah pendekatan yang paling mungkin dilakukan secara efisien.
Ketika vendor menawarkan agen otonom atau spesialis, ada empat pertanyaan penting yang perlu dipertimbangkan.
- Di mana pengetahuan bisnis terletak: di bobot, di prompt, atau dihasilkan berdasarkan permintaan?
- Apa yang menyertai setiap output agar reviewer bisa memverifikasinya tanpa harus mengulangnya?
- Apa yang memutuskan pekerjaan mana yang diangkat kepada manusia?
- Dan model mana yang berkembang dari umpan balik tersebut, serta di mana ia berjalan?
Jawaban-jawaban ini, bukan rasio headline, akan memberikan gambaran mengenai apa yang sebenarnya Anda beli.
Pendekatan hypernetwork adalah upaya yang paling kredibel hingga saat ini untuk membuat model kecil memahami bisnis spesifik tanpa melupakan dan tanpa penjelasan ulang di setiap pemanggilan. Namun, ini juga yang paling sedikit terbukti, dan aspek yang paling penting—kalibrasi dan skala—masih dalam tahap review. Untuk pekerjaan yang tepat, uji coba sekarang. Untuk yang salah, biaya integrasi yang dikeluarkan tidak memberikan nilai lebih dibandingkan model frontier yang sudah dikelola dengan baik.

