LangSmith Engine Otomatisasi Proses Debugging Agenâ€”Namun, Perusahaan Multi-Model Masih Butuh Lapisan Netral

Perusahaan yang sedang membangun dan menerapkan agen menghadapi tantangan: waktu yang dibutuhkan insinyur untuk mendeteksi kesalahan yang dibuat oleh agen terlalu lama, dan masalah ini terus berulang, terutama tanpa adanya keterlibatan manusia di setiap langkah.

Table of Content

LangSmith Engine Menganalisis Kegagalan
Penyedia Model Menghadirkan Evaluator dalam Platform

LangSmith, platform pemantauan dan evaluasi yang dikembangkan oleh LangChain, meluncurkan fitur baru dalam fase beta publik yang bisa membantu mengatasi permasalahan ini. LangSmith Engine secara otomatis mendeteksi kegagalan produksi, mendiagnosa penyebab utama berdasarkan kode yang sedang berjalan, menyusun perbaikan, dan mencegah regresi dalam satu proses otomatis.

LangSmith Engine memberikan jalan yang lebih cepat bagi insinyur AI untuk melakukan triase, namun peluncurannya memasuki arena yang sudah cukup ramai: Anthropic, OpenAI, dan Google juga mengintegrasikan observabilitas dan evaluasi ke dalam platform mereka sendiri.

LangSmith Engine Menganalisis Kegagalan

Dalam sebuah postingan blog, LangChain menjelaskan bahwa siklus pengembangan agen biasanya dimulai dengan melacak agen untuk memahami fungsinya, dilanjutkan dengan mengidentifikasi kekurangan, melakukan perubahan pada prompt dan alat, serta membuat dataset akurat. Para pengembang kemudian menjalankan eksperimen dan memeriksa regresi sebelum meluncurkan agen tersebut.

Permasalahannya, seringkali pelanggan menghadapi kendala ketika ulasan jejak tidak mendeteksi pola yang salah, pengulangan kesalahan sulit terbaca, dan tidak ada evaluator yang secara spesifik menangkap masalah yang sama saat itu muncul kembali di produksi.

LangSmith Engine bekerja dengan memantau jejak produksi untuk beberapa jenis sinyal, seperti â€œkesalahan eksplisit, gagal evaluasi online, anomali jejak, umpan balik negatif pengguna, dan perilaku tidak biasa seperti pengguna yang bertanya hal-hal yang tidak dapat dijawab oleh agen,â€ menurut artikel tersebut.

Engine kemudian akan membaca kode yang sedang berjalan, mencari penyebab masalah dan menyusun permintaan tarik (pull request) sebelum mengusulkan evaluator khusus untuk pola kesalahan tersebut. Keterlibatan manusia baru terjadi pada tahap persetujuan.

Fitur ini dibangun di atas infrastruktur pemantauan dan evaluasi LangSmith yang ada, dan juga bekerja dengan hasil evaluator dari perusahaan.

Berbeda dengan alat observabilitas seperti Weights & Biases, Arize Phoenix, dan Honeyhive, LangSmith Engine mengambil seluruh rantai secara otomatis â€” mulai dari mendeteksi kegagalan, mendiagnosa penyebab utama, hingga menyusun perbaikan â€” dan hanya melibatkan manusia pada langkah persetujuan.

Penyedia Model Menghadirkan Evaluator dalam Platform

Sementara LangSmith mengidentifikasi siklus evaluasi ini sebagai kebutuhan bagi banyak perusahaan, Engine hadir di saat penyedia lebih besar mulai menawarkan alat observabilitas di dalam platform mereka. Ini berarti perusahaan mungkin memilih untuk menggunakan platform end-to-end alih-alih menambahkan LangSmith Engine ke konfigurasi kerja yang sudah ada.

Claude Managed Agents dari Anthropic menggabungkan penyebaran agen, evaluasi, dan orkestrasi dalam satu suite. Frontier dari OpenAI menawarkan platform serupa untuk membangun, mengelola, dan mengevaluasi agen perusahaan â€” meskipun keduanya menghadapi tantangan dari perusahaan yang khawatir untuk berkomitmen pada satu vendor saja.

Namun, para praktisi menunjukkan bahwa tidak semua orang ingin membawa evaluasi dan observabilitas sepenuhnya ke dalam satu platform.

Leigh Coney, pendiri dan konsultan utama di Workwise Solutions, mengatakan kepada VentureBeat bahwa observabilitas pihak ketiga adalah default untuk banyak perusahaan.

â€œSalah satu dana yang saya kerjakan menjalankan Claude untuk analisis dan GPT untuk alur kerja yang terpisah. Jika observabilitas ada dalam alat masing-masing penyedia, maka kini ada dua sistem yang tidak dapat berkomunikasi satu sama lain. Tim kepatuhan Anda tidak dapat menghasilkan jejak audit yang terintegrasi,â€ ujarnya. â€œJadi observabilitas pihak ketiga masih bertahan karena multi-model sudah menjadi default di perusahaan, dan seseorang harus menjembatani antara penyedia.â€

Jessica Arredondo Murphy, CEO dan salah satu pendiri True Fit, menambahkan bahwa platform independen seperti LangSmith harus membuktikan kepada perusahaan bahwa mereka bisa “menjawab pertanyaan jangka panjang tentang apakah mereka dapat menjadi lapisan operasional antar-model untuk kualitas dan keandalan.”

â€œPerusahaan tidak mengkonsolidasikan ke dalam alat penyedia model pertama secepat yang diinginkan oleh penyedia model. Yang saya lihat adalah pembagian pragmatis: tim akan menggunakan alat penyedia pertama untuk onboarding cepat dan debugging tahap awal, tetapi segera setelah mereka peduli tentang keandalan produksi, tata kelola, dan fleksibilitas jangka panjang, mereka cenderung memperkenalkan lapisan yang lebih netral untuk observabilitas dan evaluasi,â€ jelasnya.

LangSmith Engine saat ini sudah tersedia dalam beta publik. Tim dapat menghubungkan proyek pelacakan mereka, secara opsional menyambungkan repositori, dan Engine akan mulai memunculkan masalah dari jejak produksi secara otomatis.

Artikel Populer

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

LangSmith Engine Otomatisasi Proses Debugging Agenâ€”Namun, Perusahaan Multi-Model Masih Butuh Lapisan Netral

LangSmith Engine Menganalisis Kegagalan

Penyedia Model Menghadirkan Evaluator dalam Platform

Don't Miss

Analis Teknologi Terkenal Dan Ives Tinggalkan Wedbush untuk Memulai Petualangan Baru

Inilah Rahasia Di Balik Kesuksesan Viral yang Menghasilkan Merek Senilai $100 Juta

Saham SpaceX Turun di Bawah Harga IPO untuk Pertama Kalinya, Rally Panas Mulai Mereda

Baca Juga

Pengembang Kini Bisa Debug dan Evaluasi AI Secara Lokal dengan Alat Open Source Raindrop, Workshop.

Obligasi Indonesia Kembali Merosot, Kepercayaan Pasar Masih Lesu

Ringgit Jatuh ke Level Terendah dalam Tujuh Bulan akibat Kekhawatiran Kebijakan Fed

Spanyol Ambil Keputusan Terkait Bintang FC Barcelona, Lamine Yamal, di Piala Dunia

CEO Apple Tim Cook Mundur, Siapa yang Menggantikan?

Ahli Memori Perkirakan Lonjakan Harga RAM Besar di 2026 â€” Namun, Saya Tidak Percaya Prediksi Ini

Devolo Magic 2 WiFi 6 Next: Solusi Cerdas Gabungan Powerline dan Wi-Fi Atasi Titik Mati Sinyal!

Kevin Warsh Perlu Jelaskan Mengapa The Fed Tak Bisa Melawan Inflasi dengan Sembarang Cara

Personal

Tentang Kami