Untuk sistem AI agar terus berkembang dalam pekerjaan berbasis pengetahuan, mereka membutuhkan mekanisme yang handal untuk peningkatan diri secara mandiri atau evaluator manusia yang mampu mendeteksi kesalahan dan memberikan umpan balik berkualitas tinggi. Industri telah berinvestasi besar-besaran dalam aspek yang pertama, tetapi sepertinya kurang memperhatikan apa yang terjadi pada yang kedua.
Banyak kalangan berpendapat bahwa kita perlu menangani masalah evaluasi manusia dengan serius, sama seperti investasi yang kita curahkan untuk membangun kemampuan model itu sendiri. Rekrutmen lulusan baru di perusahaan teknologi besar telah menurun hingga setengahnya sejak 2019. Pekerjaan seperti peninjauan dokumen, penelitian awal, pembersihan data, dan tinjauan kode kini sudah ditangani oleh model. Para ekonom yang mengamati ini menyebutnya sebagai penggusuran, sementara perusahaan yang melakukan ini menyebutnya sebagai efisiensi. Sayangnya, tidak ada yang fokus pada masalah masa depan terkait hal ini.
Kenapa Peningkatan Diri Memiliki Batas di Pekerjaan Berbasis Pengetahuan
Tentunya ada yang mengatakan pembelajaran penguatan (reinforcement learning/RL) adalah solusinya. AlphaZero belajar bermain Go, catur, dan Shogi pada tingkat supermanusia tanpa data manusia dan menciptakan strategi baru selama proses itu. Gerakan 37 dalam pertandingan 2016 melawan Lee Sedol, yang menurut para profesional tidak akan pernah dimainkan, tidak berasal dari anotasi manusia. Itu muncul dari permainan sendiri AI.
Apa yang memungkinkan ini adalah kestabilan lingkungan. Gerakan 37 adalah langkah baru dalam ruang keadaan tetap Go. Aturannya lengkap, tidak ambigu, dan permanen. Yang lebih penting, sinyal imbalan sangat jelas: Menang atau kalah, dan langsung, tanpa ruang untuk interpretasi. Sistem selalu tahu apakah sebuah langkah baik karena permainan akhirnya berakhir dengan hasil yang jelas.
Namun, pekerjaan berbasis pengetahuan tidak memiliki karakteristik tersebut. Aturan di setiap domain profesional bersifat dinamis dan terus ditulis ulang oleh manusia yang beroperasi di dalamnya. Undang-undang baru disahkan, instrumen keuangan baru diciptakan. Strategi hukum yang berhasil pada 2022 bisa jadi gagal di yurisdiksi yang telah mengubah interpretasinya. Apakah diagnosis medis benar mungkin tidak diketahui selama bertahun-tahun. Tanpa lingkungan yang stabil dan sinyal imbalan yang jelas, tidak mungkin kita menutup lingkaran. Kita butuh manusia dalam rantai evaluasi untuk terus mengajarkan model.
Masalah Pembentukan
Sistem AI yang dibangun saat ini dilatih berdasarkan ekspertis orang-orang yang telah melalui pembentukan tersebut. Yang berbeda sekarang adalah bahwa pekerjaan tingkat pemula yang mengembangkan keahlian tersebut telah otomatisasi lebih dulu. Ini berarti generasi potensial berikutnya tidak mengumpulkan jenis penilaian yang membuat evaluator manusia layak berada dalam proses ini.
Sejarah menunjukkan contoh pengetahuan yang hilang. Konkrit Romawi, teknik konstruksi Gotik, tradisi matematika yang membutuhkan ratusan tahun untuk ditemukan kembali. Namun, dalam setiap kasus historis, penyebabnya adalah eksternal: Wabah, penjajahan, runtuhnya institusi yang menampung pengetahuan. Yang berbeda kini adalah tidak ada kekuatan eksternal yang diperlukan. Bidang bisa mengalami kemunduran bukan dari bencana tetapi dari seribu keputusan ekonomi yang rasional, masing-masing masuk akal dalam isolasi. Ini adalah mekanisme baru, dan kita belum terlalu terlatih mengenalinya saat hal itu terjadi.
Ketika Seluruh Bidang Menjadi Senyap
Pada batas logisnya, ini bukan hanya masalah saluran. Ini adalah kolaps permintaan untuk keahlian itu sendiri.
Ambil contoh matematika lanjutan. Itu tidak kehilangan daya tarik karena kita berhenti melatih matematikawan. Namun, itu akan hilang karena organisasi berhenti membutuhkan matematikawan untuk pekerjaan sehari-hari mereka, insentif ekonomi untuk menjadi seorang matematikawan lenyap, populasi orang yang mampu melakukan penalaran matematis semakin menyusut, dan kapasitas bidang untuk menghasilkan wawasan baru hening-hening runtuh. Logika yang sama berlaku untuk pemrograman. Pertanyaannya bukan “akan AI menulis kode” tetapi “jika AI menulis semua kode produksi, siapa yang mengembangkan intuisi arsitektural yang dalam yang menghasilkan desain sistem yang benar-benar baru?”
Ada perbedaan krusial antara bidang yang diotomatisasi dan bidang yang dipahami. Kita bisa mengotomatiskan banyak hal dalam rekayasa struktural hari ini, tetapi pengetahuan abstrak tentang mengapa pendekatan tertentu berhasil terletak di kepala orang-orang yang menghabiskan bertahun-tahun melakukannya dengan cara yang salah pertama kali. Jika kita menghilangkan praktiknya, kita tidak hanya kehilangan pelakunya. Kita kehilangan kapasitas untuk mengetahui apa yang telah hilang.
Matematika lanjutan, ilmu komputer teoretis, penalaran hukum yang mendalam, arsitektur sistem kompleks: Ketika orang terakhir yang memahami subbidang aljabar dengan baik pensiun dan tidak ada yang menggantikan mereka karena dananya kering dan jalur kariernya menghilang, pengetahuan itu mungkin tidak akan ditemukan kembali dalam waktu dekat.
Itu hilang. Dan tak seorang pun menyadari karena model yang dilatih berdasarkan karya mereka masih berkinerja baik dalam tolok ukur selama satu dekade ke depan. Ini bisa disebut sebagai pengosongan: Kapasitas permukaan tetap ada (model masih bisa menghasilkan keluaran yang terlihat ahli) sementara kapasitas manusia yang mendasari untuk memvalidasi, memperluas, atau mengoreksi keahlian itu perlahan-lahan menghilang.
Mengapa Rubrik Tidak Sepenuhnya Menggantikan
Pendekatan saat ini adalah evaluasi berbasis rubrik. AI Konstitusional, pembelajaran penguatan dari umpan balik AI (RLAIF), dan kriteria terstruktur yang memungkinkan model menilai model adalah teknik serius yang secara berarti mengurangi ketergantungan pada evaluator manusia. Yang perlu dicatat adalah batasan mereka: Sebuah rubrik hanya bisa menangkap apa yang diketahui oleh orang yang menulisnya untuk diukur. Jika terlalu keras mengoptimalkan terhadapnya, Anda akan mendapatkan model yang sangat baik dalam memenuhi rubrik. Namun, itu tidak sama dengan model yang benar-benar tepat.
Rubrik memperbesar bagian evaluasi yang eksplisit dan dapat diartikulasikan. Bagian yang lebih dalam, insting, dan perasaan bahwa ada yang tidak beres tidak cocok dalam rubrik tersebut. Anda tidak bisa menuliskannya karena Anda perlu mengalaminya terlebih dahulu sebelum tahu apa yang harus ditulis.
Apa Artinya Dalam Praktik
Ini bukan argumen untuk memperlambat pengembangan. Perolehan kemampuan adalah nyata. Dan mungkin para peneliti akan menemukan cara untuk menutup lingkaran evaluasi tanpa penilaian manusia. Mungkin jalur data sintetis akan cukup baik. Mungkin model akan mengembangkan mekanisme koreksi diri yang dapat diandalkan yang belum bisa kita bayangkan.
Tetapi saat ini, kita belum punya hal itu. Dan sementara itu, kita sedang merobohkan infrastruktur manusia yang saat ini mengisi kekosongan tersebut, bukan sebagai keputusan yang disengaja tetapi sebagai efek samping dari seribu keputusan rasional. Versi yang bertanggung jawab dari transisi ini bukanlah dengan mengasumsikan masalahnya akan teratasi dengan sendirinya. Ini adalah menyikapi kekurangan evaluasi sebagai masalah penelitian terbuka dengan urgensi yang sama seperti yang kita bawa untuk mendapatkan kemampuan.
Yang paling dibutuhkan AI dari manusia adalah hal yang paling sedikit kita fokuskan untuk dilestarikan. Baik itu benar secara permanen atau hanya sementara, biaya untuk mengabaikannya tetap sama.

