Dalam beberapa tahun terakhir, dunia teknik menghadapi tantangan baru yang belum sepenuhnya teridentifikasi, khususnya terkait dengan insiden produksi. Banyak tim teknik belum melacak jenis insiden ini karena tidak ada template postmortem yang sesuai. Dalam banyak kasus, agen kecerdasan buatan (AI) melakukan tindakan yang benar secara teknis berdasarkan konteks yang diberikan. Namun, konteks tersebut sering kali tidak lengkap, yang menyebabkan infrastruktur mengalami tak terduga dan berujung pada ketidakpastian di antara tim terkait apakah ini adalah kegagalan agen atau infrastruktur.
Menurut data terbaru, 79% organisasi sekarang menggunakan beberapa bentuk agen AI di produksi, dengan 96% berencana untuk memperluas pemakaian. Gartner memprediksi bahwa 33% perangkat lunak perusahaan akan melibatkan AI agentik pada tahun 2028, tetapi mengingatkan bahwa 40% proyek tersebut berisiko dibatalkan karena kontrol risiko yang buruk. Menariknya, apa yang tidak tertangkap dalam statistik ini adalah mode kegagalan yang terjadi di antara dua angka itu: agen yang aktif namun tidak dibatalkan, yang diam-diam memicu kejadian infrastruktur yang tak terkategori sebagai risiko.
Selama enam tahun terakhir, banyak organisasi telah membuat kesalahan struktural dengan memandang agen otonom dan rekayasa chaos sebagai disiplin yang terpisah. Padahal, ini adalah dua hal yang saling terkait, dan kesenjangan di antara keduanya berpotensi menghasilkan gelombang besar insiden produksi yang baru.
Keputusan yang Dilewati oleh Agen
Untuk memahami mengapa hal ini penting, kita perlu menggali lebih dalam tentang bagaimana perusahaan mengelola chaos saat ini sebelum melibatkan agen. Kebanyakan organisasi teknik yang matang telah berinvestasi dalam program rekayasa chaos dengan eksperimen yang melibatkan penilaian dari manusia sebelum menginisiasi tindakan. Ketika seorang insinyur manusia melakukan eksperimen chaos, mereka menganalisis berbagai parameter, seperti tingkat pembakaran anggaran kesalahan dan stabilitas ketergantungan. Ini memang tidak sempurna, tetapi setidaknya ada manusia yang terlibat dalam pengambilan keputusan sebelum sesuatu dilakukan.
Namun, ketika agen otonom memperbaiki masalah, pertanyaan kritis tersebut hilang. Agen ini dapat melihat sebuah anomali dan langsung melakukan tindakan tanpa melakukan pemeriksaan terhadap kondisi saat itu. Misalnya, saat agen mendeteksi latensi tinggi pada sebuah layanan dan memutuskan untuk merestart cluster layanan, tindakan ini mungkin tampak logis dalam konteks pelatihan yang didapat. Namun, agen tidak menyadari bahwa ada tiga layanan lain yang juga beroperasi dengan beban tinggi pada saat yang sama.
Pembaharuan tersebut tidak hanya berdampak pada layanan yang terpengaruh tetapi juga dapat menciptakan masalah besar di sistem secara keseluruhan. Bukti ketidakcocokan ini tidak diperhitungkan dalam eksperimen chaos, karena tidak ada perhitungan dampak yang melibatkan agen sebagai aktor. Seharusnya kita memandang agen ini sebagai faktor yang dapat mempengaruhi stabilitas sistem.
Kapasitas Serap sebagai Sumber Daya
Masalah mendasar lainnya adalah banyak sistem perusahaan tidak memiliki bahasa bersama untuk kapasitas serap. Kapasitas ini penting untuk memahami seberapa banyak tekanan tambahan yang dapat diterima sebuah sistem sebelum gagal memenuhi komitmen Service Level Objective (SLO). Program-program rekayasa chaos sering mengelola ini secara implisit melalui penilaian manusia. Sementara itu, agen cenderung tidak memperhitungkannya sama sekali.
Melalui riset yang dilakukan di kalangan insinyur keandalan situs (SRE) dan praktisi rekayasa platform, telah dikembangkan model anggaran ketahanan. Inti dari model ini adalah melihat kapasitas serap sebagai sumber daya yang dapat digunakan secara berkelanjutan, berbeda dengan ambang batas statis. Anggaran ketahanan ini terdiri dari beberapa sinyal kunci, seperti tingkat pembakaran SLO, tren latensi P99, dan kondisi saturasi ketergantungan, yang dapat memberikan gambaran lebih jelas tentang kinerja sistem.
-
Tingkat pembakaran SLO menjadi sinyal utama karena langsung terkait dengan komitmen yang penting.
-
Tren latensi P99 lebih penting daripada latensi absolut, memberikan wawasan lebih baik tentang kesehatan layanan.
-
Kondisi saturasi ketergantungan sering terlewatkan, di mana asumsinya bahwa sumber daya selalu tersedia tidak lagi berlaku.
-
Sinyal perilaku aplikasi dapat mendeteksi masalah sebelum metrik infrastruktur muncul.
Menggunakan model anggaran ketahanan memungkinkan setiap tindakan agen dan eksperimen saling terkait dan berbagi dampak. Tanpa catatan yang jelas, dua tim yang menjalankan eksperimen serupa dapat menciptakan dampak gabungan yang tidak diperhitungkan sebelumnya.
Peran Model Bahasa dalam Menghadapi Tantangan
Beberapa organisasi teknik kini mulai menggunakan model bahasa besar (LLM) untuk menghasilkan hipotesis chaos dari grafik ketergantungan. Meskipun hasilnya dapat membantu, keterbatasan besar tetap ada. Jika grafik ketergantungan yang digunakan tidak mencerminkan keadaan terkini, hipotesis yang dihasilkan berpotensi tidak akurat, dan hal ini bisa menyebabkan kegagalan yang tidak terduga saat eksperimen dilakukan.
Model yang tidak memiliki akses ke konteks tersebut seharusnya tidak dipaksa membuat keputusan. Ini bukan hanya batasan sementara, melainkan konstrain struktural dari apa yang dapat dipahami oleh mesin. Oleh karena itu, pendekatan yang lebih aman akan melibatkan manusia dalam proses pengambilan keputusan saat situasi ambigu. Dengan demikian, sistem dapat berfungsi dengan lebih baik di lingkungan produksi dan dapat diandalkan.
Penting bagi setiap tindakan agen yang menyentuh infrastruktur untuk terdaftar di sinyal langsung yang mengatur eksperimen chaos. Anggaran ketahanan berikut kondisi minimum harus menjadi pedoman yang harus dipatuhi oleh agen sebelum bertindak. Jika anggaran di bawah titik tertentu, agen tidak boleh bertindak tanpa pemeriksaan lebih lanjut.
Pembenahan ini awalnya mungkin terlihat tidak glamour, tetapi merupakan langkah penting untuk memastikan setiap agen di lapangan beroperasi dalam batas yang telah ditetapkan, menghindarkan potensi masalah yang lebih besar di masa mendatang.
Dengan memahami dan mengelola tindakan agen otonom secara lebih bijak, organisasi bisa lebih siap dalam menghadapi ketidakpastian dan meminimalisir risiko yang tidak perlu.

