Program AI di perusahaan jarang kali gagal karena ide yang buruk. Sering kali, mereka terjebak dalam mode pilot yang tidak teratur dan tidak pernah sampai ke tahap produksi. Di sebuah acara recent dari VentureBeat, para pemimpin teknologi dari MassMutual dan Mass General Brigham berbagi cara mereka menghindari jebakan ini dan hasil nyata yang muncul ketika disiplin menggantikan kekacauan.
Hasil yang dicapai MassMutual cukup konkret: peningkatan produktivitas pengembang sebesar 30%, waktu penyelesaian masalah di help desk IT berkurang dari 11 menit menjadi satu menit, dan waktu panggilan layanan pelanggan yang sebelumnya 15 menit kini hanya satu atau dua menit saja.
“Kami selalu memulai dengan pertanyaan, mengapa kami peduli dengan masalah ini?” ujar Sears Merritt, kepala teknologi dan pengalaman perusahaan MassMutual, di acara tersebut. “Jika kami menyelesaikan masalah ini, bagaimana kami tahu kami berhasil? Dan seberapa besar nilai yang terkait dengan penyelesaian itu?”
Menetapkan metrik dan umpan balik yang kuat
MassMutual, sebuah perusahaan berusia 175 tahun yang melayani jutaan pemilik polis dan pelanggan, telah mendorong AI ke dalam produksi di seluruh bisnis — mulai dari dukungan pelanggan, IT, akuisisi pelanggan, underwriting, pelayanan, klaim, hingga berbagai bidang lainnya.
Merritt menjelaskan timnya mengikuti metode ilmiah, dimulai dengan hipotesis dan menguji hasilnya untuk melihat apakah bisa mendorong bisnis ke depan. Beberapa ide mungkin bagus, tapi bisa saja “tidak dapat diterapkan dalam bisnis” karena kurang data atau akses, atau kendala regulasi.
“Kami tidak akan melangkah lebih jauh dengan ide apapun sampai kami benar-benar jelas tentang bagaimana cara mengukur dan mendefinisikan kesuksesan.”
Pada akhirnya, masing-masing departemen dan pemimpin bertanggung jawab untuk mendefinisikan apa itu kualitas: memilih metrik dan menentukan standar kualitas minimum sebelum alat digunakan oleh tim dan mitra.
Titik awal ini menciptakan umpan balik yang cepat. “Hal-hal yang sering menghambat kami adalah ketika tidak ada kejelasan bersama tentang hasil yang ingin dicapai,” yang bisa menyebabkan kebingungan dan penyesuaian terus-menerus, kata Merritt. “Kami tidak memasuki produksi sampai ada mitra bisnis yang mengatakan, ‘Ya, itu bekerja.’”
Tim Merritt sangat strategis dalam mengevaluasi alat baru dan “sangat ketat” saat menguji serta mengukur apa yang dimaksud dengan “baik”. Misalnya, mereka melakukan trust scoring untuk menurunkan kemungkinan kesalahan, menetapkan ambang batas dan kriteria evaluasi, serta memantau pergeseran fitur dan output.
Merritt juga memiliki kebijakan tanpa komitmen — artinya perusahaan tidak terikat menggunakan model tertentu. Mereka memiliki apa yang dia sebut sebagai lingkungan teknologi yang “sangat heterogen” yang menggabungkan model-model terbaik dengan mainframe yang berjalan di COBOL. Fleksibilitas ini bukan kebetulan. Timnya membangun lapisan layanan umum, microservices, dan API yang berada di antara lapisan AI dan yang lainnya — jadi ketika model yang lebih baik muncul, menggantinya tidak berarti harus memulai dari awal.
Karena, menurut Merritt, “yang terbaik saat ini mungkin menjadi yang terburuk besok, dan kami tidak mau tertinggal.”
Menyortir alih-alih membiarkan banyak bunga bermekaran
Sementara itu, Mass General Brigham (MGB) awalnya mengambil pendekatan yang lebih “spray and pray”. Sekitar 15.000 peneliti di sistem kesehatan nirlaba ini telah menggunakan AI, ML, dan pembelajaran mendalam selama 10 hingga 15 tahun, kata CTO Nallan “Sri” Sriraman di acara VB yang sama.
Tahun lalu, ia membuat keputusan berani: timnya menghentikan banyak pilot AI yang tidak teratur. Awalnya, “kami mengikuti metode seribu bunga bermekaran, tetapi kami tidak memiliki seribu bunga, kami hanya memiliki beberapa puluh bunga yang mencoba bermekaran,” ucapnya.
Sama seperti tim Merritt di MassMutual, MGB beralih ke pandangan yang lebih holistik, mempertanyakan alasan mereka mengembangkan alat tertentu untuk departemen spesifik. Mereka bertanya tentang kemampuan apa yang diinginkan dan dibutuhkan serta investasi yang diperlukan.
Tim Sriraman juga berbicara dengan penyedia platform utama mereka — Epic, Workday, ServiceNow, Microsoft — tentang peta jalan mereka. Ini adalah “momen penting”, katanya, karena mereka menyadari bahwa mereka sedang membangun alat internal yang sudah disediakan (atau yang sedang direncanakan) oleh vendor.
Seperti yang diungkapkan Sriraman: “Mengapa kita membangunnya sendiri? Kami sudah ada di platform. Itu akan ada dalam alur kerja. Manfaatkan saja.”
Meskipun begitu, pasar masih tergolong baru, yang membuat pengambilan keputusan menjadi sulit. “Analogi yang bisa saya berikan adalah ketika Anda meminta enam orang buta untuk meraba seekor gajah dan bertanya, seperti apa gajah ini?” kata Sriraman. “Anda akan mendapatkan enam jawaban yang berbeda.”
Itu bukan masalah, ia menambahkan; semua orang sedang mengeksplorasi dan bereksperimen karena lanskapnya terus berubah.
Alih-alih berada dalam lingkungan liar, tim Sriraman membagikan Microsoft Copilot kepada pengguna di seluruh bisnis, dan menggunakan “zona pendaratan kecil” di mana mereka dapat menguji produk yang lebih canggih dengan aman dan mengontrol penggunaan token.
Mereka juga mulai “secara sadar menanamkan juara AI” di berbagai grup bisnis. “Ini seperti kebalikan dari membiarkan seribu bunga bermekaran, yaitu dengan hati-hati menanam dan merawat,” kata Sriraman.
Pertimbangan besar lainnya adalah observabilitas; ia menggambarkan dasbor waktu nyata yang mengelola pergeseran model dan keamanan, serta memungkinkan tim IT untuk mengelola AI “dengan cara yang lebih pragmatis.” Pemantauan kesehatan sangat penting dengan sistem AI, tuturnya, dan timnya sudah menetapkan prinsip serta kebijakan tentang penggunaan AI, termasuk hak akses minimum.
Dalam pengaturan klinis, batasan sangat jelas: sistem AI tidak pernah mengambil keputusan akhir. “Selalu akan ada dokter atau asisten dokter yang terlibat dalam pengambilan keputusan,” kata Sriraman. Ia menyebutkan penghasilan laporan radiologi sebagai salah satu area di mana AI banyak digunakan, namun seorang radiolog selalu menandatanganinya.
Sriraman dengan tegas menyatakan: “Larangan ini harus diingat: Jangan tunjukkan PHI [informasi kesehatan terlindungi] dalam Perplexity. Sesederhana itu, kan?”
Dan yang tak kalah penting, harus ada mekanisme keamanan yang dipasang. “Kami butuh tombol besar merah, untuk membatalkan,” tekannya. “Kami tidak menempatkan apapun dalam pengaturan operasional tanpa hal itu.”
Pada akhirnya, meskipun AI yang bersifat agenif adalah teknologi yang transformatif, pendekatan perusahaan terhadapnya tidak harus terlalu berbeda. “Tidak ada yang baru di sini,” kata Sriraman. “Anda bisa mengganti kata BPM [manajemen proses bisnis] dari tahun 90-an dan 2000-an dengan AI. Konsep yang sama berlaku.”

