Perusahaan yang sedang membangun dan menerapkan agen menghadapi tantangan: waktu yang dibutuhkan insinyur untuk mendeteksi kesalahan yang dibuat oleh agen terlalu lama, dan masalah ini terus berulang, terutama tanpa adanya keterlibatan manusia di setiap langkah.
LangSmith, platform pemantauan dan evaluasi yang dikembangkan oleh LangChain, meluncurkan fitur baru dalam fase beta publik yang bisa membantu mengatasi permasalahan ini. LangSmith Engine secara otomatis mendeteksi kegagalan produksi, mendiagnosa penyebab utama berdasarkan kode yang sedang berjalan, menyusun perbaikan, dan mencegah regresi dalam satu proses otomatis.
LangSmith Engine memberikan jalan yang lebih cepat bagi insinyur AI untuk melakukan triase, namun peluncurannya memasuki arena yang sudah cukup ramai: Anthropic, OpenAI, dan Google juga mengintegrasikan observabilitas dan evaluasi ke dalam platform mereka sendiri.
LangSmith Engine Menganalisis Kegagalan
Dalam sebuah postingan blog, LangChain menjelaskan bahwa siklus pengembangan agen biasanya dimulai dengan melacak agen untuk memahami fungsinya, dilanjutkan dengan mengidentifikasi kekurangan, melakukan perubahan pada prompt dan alat, serta membuat dataset akurat. Para pengembang kemudian menjalankan eksperimen dan memeriksa regresi sebelum meluncurkan agen tersebut.
Permasalahannya, seringkali pelanggan menghadapi kendala ketika ulasan jejak tidak mendeteksi pola yang salah, pengulangan kesalahan sulit terbaca, dan tidak ada evaluator yang secara spesifik menangkap masalah yang sama saat itu muncul kembali di produksi.
LangSmith Engine bekerja dengan memantau jejak produksi untuk beberapa jenis sinyal, seperti “kesalahan eksplisit, gagal evaluasi online, anomali jejak, umpan balik negatif pengguna, dan perilaku tidak biasa seperti pengguna yang bertanya hal-hal yang tidak dapat dijawab oleh agen,” menurut artikel tersebut.
Engine kemudian akan membaca kode yang sedang berjalan, mencari penyebab masalah dan menyusun permintaan tarik (pull request) sebelum mengusulkan evaluator khusus untuk pola kesalahan tersebut. Keterlibatan manusia baru terjadi pada tahap persetujuan.
Fitur ini dibangun di atas infrastruktur pemantauan dan evaluasi LangSmith yang ada, dan juga bekerja dengan hasil evaluator dari perusahaan.
Berbeda dengan alat observabilitas seperti Weights & Biases, Arize Phoenix, dan Honeyhive, LangSmith Engine mengambil seluruh rantai secara otomatis — mulai dari mendeteksi kegagalan, mendiagnosa penyebab utama, hingga menyusun perbaikan — dan hanya melibatkan manusia pada langkah persetujuan.
Penyedia Model Menghadirkan Evaluator dalam Platform
Sementara LangSmith mengidentifikasi siklus evaluasi ini sebagai kebutuhan bagi banyak perusahaan, Engine hadir di saat penyedia lebih besar mulai menawarkan alat observabilitas di dalam platform mereka. Ini berarti perusahaan mungkin memilih untuk menggunakan platform end-to-end alih-alih menambahkan LangSmith Engine ke konfigurasi kerja yang sudah ada.
Claude Managed Agents dari Anthropic menggabungkan penyebaran agen, evaluasi, dan orkestrasi dalam satu suite. Frontier dari OpenAI menawarkan platform serupa untuk membangun, mengelola, dan mengevaluasi agen perusahaan — meskipun keduanya menghadapi tantangan dari perusahaan yang khawatir untuk berkomitmen pada satu vendor saja.
Namun, para praktisi menunjukkan bahwa tidak semua orang ingin membawa evaluasi dan observabilitas sepenuhnya ke dalam satu platform.
Leigh Coney, pendiri dan konsultan utama di Workwise Solutions, mengatakan kepada VentureBeat bahwa observabilitas pihak ketiga adalah default untuk banyak perusahaan.
“Salah satu dana yang saya kerjakan menjalankan Claude untuk analisis dan GPT untuk alur kerja yang terpisah. Jika observabilitas ada dalam alat masing-masing penyedia, maka kini ada dua sistem yang tidak dapat berkomunikasi satu sama lain. Tim kepatuhan Anda tidak dapat menghasilkan jejak audit yang terintegrasi,” ujarnya. “Jadi observabilitas pihak ketiga masih bertahan karena multi-model sudah menjadi default di perusahaan, dan seseorang harus menjembatani antara penyedia.”
Jessica Arredondo Murphy, CEO dan salah satu pendiri True Fit, menambahkan bahwa platform independen seperti LangSmith harus membuktikan kepada perusahaan bahwa mereka bisa “menjawab pertanyaan jangka panjang tentang apakah mereka dapat menjadi lapisan operasional antar-model untuk kualitas dan keandalan.”
“Perusahaan tidak mengkonsolidasikan ke dalam alat penyedia model pertama secepat yang diinginkan oleh penyedia model. Yang saya lihat adalah pembagian pragmatis: tim akan menggunakan alat penyedia pertama untuk onboarding cepat dan debugging tahap awal, tetapi segera setelah mereka peduli tentang keandalan produksi, tata kelola, dan fleksibilitas jangka panjang, mereka cenderung memperkenalkan lapisan yang lebih netral untuk observabilitas dan evaluasi,” jelasnya.
LangSmith Engine saat ini sudah tersedia dalam beta publik. Tim dapat menghubungkan proyek pelacakan mereka, secara opsional menyambungkan repositori, dan Engine akan mulai memunculkan masalah dari jejak produksi secara otomatis.

