Selama 18 bulan terakhir, buku pedoman Chief Information Security Officer (CISO) untuk AI generatif cukup sederhana: Kendalikan browser.
- Mengapa inference lokal menjadi praktis secara tiba-tiba
- Risikonya bukan hanya data yang meninggalkan perusahaan lagi
- 1. Kontaminasi kode dan keputusan (risiko integritas)
- 2. Paparan lisensi dan IP (risiko kepatuhan)
- 3. Paparan rantai pasokan model (risiko asal-usul)
- Mengurangi BYOM: perlakukan bobot model seperti artefak perangkat lunak
- Perimeter bergerak kembali ke perangkat
Tim keamanan memperketat kebijakan cloud access security broker (CASB), memblokir atau memantau lalu lintas menuju endpoint AI yang sudah dikenal, dan mengarahkan penggunaan melalui gerbang yang disetujui. Model operasionalnya jelas: Jika data sensitif keluar dari jaringan untuk panggilan API eksternal, kita bisa memantaunya, mencatatnya, dan menghentikannya. Namun, model ini mulai retak.
Perubahan hardware yang tenang telah memindahkan penggunaan model bahasa besar (LLM) dari jaringan ke endpoint. Kita sebut ini Shadow AI 2.0, atau era “bring your own model” (BYOM): Karyawan menjalankan model yang mumpuni secara lokal di laptop, offline, tanpa panggilan API dan tanpa tanda-tanda jaringan yang jelas. Percakapan tentang tata kelola masih dibingkai sebagai “data yang diekstraksi ke cloud,” tetapi risiko perusahaan yang lebih mendesak semakin berfokus pada “inference yang tidak terverifikasi di dalam perangkat.”
Ketika inference terjadi secara lokal, data loss prevention (DLP) tradisional tidak melihat interaksi itu. Dan ketika keamanan tidak melihatnya, mereka tidak bisa mengelolanya.
Mengapa inference lokal menjadi praktis secara tiba-tiba
Dua tahun yang lalu, menjalankan LLM yang berguna di laptop kerja adalah hal yang khusus. Hari ini, itu menjadi rutinitas bagi tim teknis.
Tiga hal telah bersatu:
-
Akselerator kelas konsumen menjadi serius: MacBook Pro dengan 64GB memori terpadu sering kali dapat menjalankan model-class 70B yang sudah dikuantisasi dengan kecepatan yang layak (dengan batas praktis pada panjang konteks). Apa yang dulunya memerlukan server multi-GPU kini bisa dilakukan di laptop kelas atas untuk banyak alur kerja nyata.
-
Kuantisasi menjadi arus utama: Sekarang mudah untuk mengompres model menjadi format yang lebih kecil dan lebih cepat yang muat dalam memori laptop, sering kali dengan kompromi kualitas yang dapat diterima untuk banyak tugas.
-
Distribusi tanpa hambatan: Model open-weight berada satu perintah jauh, dan ekosistem alat membuat “unduh → jalankan → chat” menjadi hal yang mudah.
Hasilnya: Seorang insinyur dapat mengunduh artefak model multi-GB, mematikan Wi-Fi, dan menjalankan alur kerja sensitif secara lokal, seperti review kode sumber, ringkasan dokumen, menyusun komunikasi pelanggan, bahkan analisis eksploratori terhadap dataset yang diatur. Tidak ada paket keluar, tidak ada log proxy, tidak ada jejak audit cloud.
Dari perspektif keamanan jaringan, aktivitas itu bisa tampak sama seperti “tidak ada yang terjadi.”
Risikonya bukan hanya data yang meninggalkan perusahaan lagi
Jika data tidak meninggalkan laptop, mengapa CISO harus peduli?
Karena risiko dominan beralih dari eksfiltrasi menjadi integritas, asal-usul, dan kepatuhan. Dalam praktiknya, inference lokal menciptakan tiga kelas titik buta yang kebanyakan perusahaan belum operasionalisasi.
1. Kontaminasi kode dan keputusan (risiko integritas)
Model lokal sering diadopsi karena cepat, privat, dan “tanpa memerlukan persetujuan.” Namun, dampaknya adalah bahwa model-model ini sering kali tidak diperiksa untuk lingkungan perusahaan.
Skenario umum: Seorang pengembang senior mengunduh model coding yang disesuaikan oleh komunitas karena hasil benchmarkenya bagus. Mereka menempelkan logika otentikasi internal, alur pembayaran, atau skrip infrastruktur untuk “membersihkannya.” Modelnya menghasilkan keluaran yang tampak mumpuni, dapat dikompilasi, dan lulus uji unit, tetapi secara halus merusak postur keamanan (validasi input yang lemah, pengaturan default yang tidak aman, perubahan konkurensi yang rapuh, pilihan ketergantungan yang tidak diizinkan secara internal). Insinyur tersebut kemudian menyetujui perubahan.
Jika interaksi itu terjadi secara offline, mungkin tidak ada catatan bahwa AI memengaruhi jalur kode sama sekali. Dan ketika Anda melakukan respon insiden, Anda akan menyelidiki gejalanya (sebuah kerentanan) tanpa melihat penyebab kunci (penggunaan model yang tidak terkontrol).
2. Paparan lisensi dan IP (risiko kepatuhan)
Banyak model berkinerja tinggi dilengkapi dengan lisensi yang menyertakan batasan pada penggunaan komersial, persyaratan atribusi, batasan bidang penggunaan, atau kewajiban yang bisa tidak sesuai dengan pengembangan produk proprietary. Ketika karyawan menjalankan model secara lokal, penggunaan itu bisa melewati proses pengadaan dan tinjauan hukum yang normal dalam organisasi.
Jika sebuah tim menggunakan model non-komersial untuk menghasilkan kode produksi, dokumentasi, atau perilaku produk, perusahaan dapat mewarisi risiko yang muncul kemudian selama peninjauan M&A, tinjauan keamanan pelanggan, atau litigasi. Hal yang sulit adalah bukan hanya syarat lisensinya, tetapi juga kurangnya inventaris dan jejak. Tanpa hub model yang dikelola atau catatan penggunaan, Anda mungkin tidak bisa membuktikan apa yang digunakan di mana.
3. Paparan rantai pasokan model (risiko asal-usul)
Inference lokal juga mengubah masalah rantai pasokan perangkat lunak. Endpoint mulai mengakumulasi artefak model besar dan alat-alat di sekitarnya: pengunduh, konverter, runtime, plugin, UI shells, dan paket Python.
Ada nuansa teknis penting di sini: Format file itu penting. Sementara format yang lebih baru seperti Safetensors dirancang untuk mencegah eksekusi kode arbitrary, format lama Pickle-based PyTorch bisa mengeksekusi payload berbahaya hanya saat dimuat. Jika pengembang Anda mengambil checkpoint yang tidak terverifikasi dari Hugging Face atau repositori lain, mereka tidak hanya mengunduh data — mereka bisa saja mengunduh exploit.
Tim keamanan telah menghabiskan puluhan tahun belajar untuk memperlakukan executable yang tidak dikenal sebagai musuh. BYOM mengharuskan kita memperluas pola pikir itu ke artefak model dan tumpukan runtime di sekitarnya. Jurang organisasi terbesar saat ini adalah bahwa kebanyakan perusahaan tidak memiliki yang setara dengan daftar tagihan perangkat lunak untuk model: Asal-usul, hash, sumber yang diizinkan, pemindaian, dan manajemen siklus hidup.
Mengurangi BYOM: perlakukan bobot model seperti artefak perangkat lunak
Anda tidak bisa menyelesaikan inference lokal dengan memblokir URL. Anda perlu kontrol yang menyadari endpoint dan pengalaman pengembang yang menjadikan jalur yang aman sebagai jalur yang mudah.
Berikut ini tiga cara praktis:
1. Pindahkan tata kelola ke endpoint
Network DLP dan CASB tetap penting untuk penggunaan cloud, tetapi tidak cukup untuk BYOM. Mulailah memperlakukan penggunaan model lokal sebagai masalah tata kelola endpoint dengan mencari sinyal-sinyal spesifik:
-
Inventaris dan deteksi: Pindai untuk indikator berkualitas tinggi seperti file .gguf yang lebih besar dari 2GB, proses seperti llama.cpp atau Ollama, dan pendengar lokal di port default 11434.
-
Kesadaran proses dan runtime: Pantau penggunaan GPU/NPU (neural processing unit) yang tinggi secara berulang dari runtime yang tidak disetujui atau server inference lokal yang tidak dikenal.
-
Kebijakan perangkat: Gunakan kebijakan mobile device management (MDM) dan endpoint detection and response (EDR) untuk mengendalikan pemasangan runtime yang tidak disetujui dan menegakkan penguatan dasar pada perangkat rekayasa. Tujuannya bukan untuk menghukum eksperimen. Ini untuk mendapatkan kembali visibilitas.
2. Sediakan jalan yang jelas: Sebuah hub model internal yang terkurasi
Shadow AI sering kali merupakan hasil dari gesekan. Alat yang disetujui terlalu ketat, terlalu umum, atau terlalu lambat untuk disetujui. Pendekatan yang lebih baik adalah menawarkan katalog internal terkurasi yang mencakup:
-
Model yang disetujui untuk tugas umum (coding, ringkasan, klasifikasi)
-
Lisensi yang diverifikasi dan panduan penggunaan
-
Versi yang disematkan dengan hash (memprioritaskan format yang lebih aman seperti Safetensors)
-
Dokumentasi jelas untuk penggunaan lokal yang aman, termasuk di mana data sensitif diizinkan dan tidak diizinkan. Jika Anda ingin pengembang berhenti merampas, berikan mereka sesuatu yang lebih baik.
3. Perbarui bahasa kebijakan: “Layanan cloud” tidak cukup lagi
Kebanyakan kebijakan penggunaan yang dapat diterima berbicara tentang alat SaaS dan cloud. BYOM memerlukan kebijakan yang secara eksplisit mencakup:
-
Mengunduh dan menjalankan artefak model di endpoint perusahaan
-
Sumber yang dapat diterima
-
Persyaratan kepatuhan lisensi
-
Aturan untuk menggunakan model dengan data sensitif
-
Ekspektasi retensi dan logging untuk alat inference lokal. Ini tidak perlu menjadi tindakan yang berat. Ini harus jelas dan tidak ambigu.
Perimeter bergerak kembali ke perangkat
Selama satu dekade, kita memindahkan kontrol keamanan “ke atas” ke cloud. Inference lokal menarik kembali bagian berarti dari aktivitas AI “ke bawah” ke endpoint.
5 sinyal bahwa Shadow AI telah berpindah ke endpoint:
-
Artefak model besar: Konsumsi penyimpanan yang tidak dapat dijelaskan oleh file .gguf atau .pt.
-
Server inference lokal: Proses yang mendengarkan di port seperti 11434 (Ollama).
-
Pola pemanfaatan GPU: Lonjakan penggunaan GPU saat offline atau tidak terhubung ke VPN.
-
Ketiadaan inventaris model: Ketidakmampuan untuk memetakan keluaran kode ke versi model tertentu.
-
Ambiguitas lisensi: Kehadiran bobot model “non-komersial” dalam build produksi.
Shadow AI 2.0 bukanlah masa depan hipotesis, itu adalah konsekuensi yang dapat diprediksi dari hardware cepat, distribusi yang mudah, dan permintaan pengembang. CISO yang hanya fokus pada kontrol jaringan akan melewatkan apa yang sedang terjadi di silicon yang ada tepat di meja karyawan.
Tahap berikutnya dalam tata kelola AI lebih tentang mengendalikan artefak, asal-usul, dan kebijakan di endpoint, tanpa membunuh produktivitas.

