Moonshot AI baru saja meluncurkan Kimi K2.7-Code minggu ini, yang merupakan pembaruan open-source untuk keluarga model pemrograman K2. Mereka mengklaim pembaruan ini menawarkan proses logika yang lebih efisien dan peningkatan kinerja dua digit.
K2.7-Code dibangun dengan arsitektur campuran ahli yang sama seperti pendahulunya, K2.6, dan dapat digunakan melalui API yang kompatibel dengan OpenAI. Ini sangat berguna bagi tim yang sudah menjalankan K2.6 di gateway produksi mereka.
Saat K2.6 diluncurkan pada bulan April, model ini langsung menduduki peringkat teratas di papan peringkat mingguan LLM OpenRouter. Peringkat ini berdasarkan keputusan pengaturan API oleh para pengembang, bukan sekadar skor dari benchmark yang dilaporkan sendiri.
Moonshot AI menyebutkan bahwa K2.7-Code mengatasi masalah yang mereka sebut “overthinking,” dengan mengurangi penggunaan token pemikiran sebesar 30% dibandingkan K2.6. Angka ini jelas berpengaruh langsung pada biaya inference bagi tim yang menjalankan alur kerja agentik. Namun, efektivitas peningkatan ini dalam benchmark independen masih menjadi pertanyaan yang diperdebatkan oleh para praktisi.
Apa itu Kimi K2.7-Code
K2.7-Code dirilis di bawah lisensi MIT yang dimodifikasi, dengan bobot yang tersedia di HuggingFace. Model ini dapat digunakan melalui vLLM atau SGLang, berjalan eksklusif dalam mode pemikiran dan tidak mendukung penyesuaian suhu — Moonshot AI mengatur suhu tetap di 1.0, artinya tim tidak bisa menyesuaikan determinisme output seperti yang mungkin dilakukan dengan model lain.
Perubahan utama dari K2.6 adalah cara model ini menghasilkan kode tingkat rendah. Sementara K2.6 menghasilkan implementasi dengan membungkus pustaka yang ada dan melalui kerangka kerja yang sudah mapan, K2.7-Code langsung menulis implementasi. Moonshot AI mengklaim ini menghasilkan generalisasi yang lebih dapat diandalkan di berbagai bahasa seperti Rust, Go, dan Python, serta jenis tugas yang mencakup pengembangan frontend, DevOps, hingga optimasi kinerja.
Dalam hal performa benchmark, Moonshot AI melaporkan peningkatan kinerja sebesar 21.8% pada Kimi Code Bench v2, 11% pada Program Bench, dan 31.5% pada MLS Bench Lite. Ketiga benchmark ini adalah milik Moonshot AI. Namun, model ini belum disubmit pada DeepSWE, yang merupakan benchmark coding independen dengan spread poin 70 antar model — dibandingkan dengan spread 30 poin dari SWE-Bench Pro. Hal ini menjadikan DeepSWE sinyal yang lebih menyaring bagi tim yang mengonfigurasi sistem routing model.
Sikap lebih jujur, namun lemah karenanya
Namun, gambaran dari luar benchmark Moonshot lebih kompleks. Peneliti Elliot Arledge menguji K2.7-Code melawan K2.6 dan Claude Fable 5 di KernelBench-Hard, sebuah benchmark publik yang berfokus pada optimisasi kernel GPU, dan mempublikasikan catatan hasilnya di kernelbench.com.
“K2.7 lebih jujur, namun tidak lebih mampu,” tulis Arledge di X.
Dari lima dari enam masalah, K2.7-Code menghasilkan kernel Triton yang ditulis langsung, di mana K2.6 menggunakan pembungkus pustaka. Dua dari kernel tersebut gagal akibat bug dari model itu sendiri. Hasil kernel MoE menurun dari skor K2.6 sebesar 0.222 menjadi 0.157.
“Fable, sebagai referensi, berhasil di setiap kasus yang tidak benar-benar gagal,” tulis Arledge.
Sugumaran Balasubramaniyan, seorang pengembang yang membangun model-router untuk platform Hermes Agent menggunakan DeepSWE sebagai sinyal rujukannya, menjawab publik terhadap rilis K2.7-Code dan menantang Moonshot AI mengenai pilihan benchmark ini.
“Dengan hormat, setiap model pasti ‘meningkat’ dua digit di suite pengujian mandirinya,” tulis Balasubramaniyan di X.
Dia mencatat bahwa K2.6 memperoleh skor 24% di DeepSWE, setara dengan GPT-5.4-mini, dan mempertanyakan apakah Moonshot AI akan mengajukan K2.7-Code ke benchmark yang sama. Balasubramaniyan juga menyatakan bahwa dibutuhkan 13 kali peninjauan untuk mendapatkan data benchmark yang tepat untuk router miliknya, dan dia akan mengarahkan tugas pemrograman ke K2.7-Code jika angka independen tersebut dapat dipercaya.
Apa artinya untuk perusahaan
Peningkatan efisiensi token ini dapat langsung dimanfaatkan. Tim yang menjalankan K2.6 di produksi dapat mengganti dengan K2.7-Code melalui API yang kompatibel dengan OpenAI dan diharapkan meraih pengurangan biaya inference untuk alur kerja agentik tanpa perlu mengubah arsitektur. Pengurangan 30% dalam penggunaan token pemikiran adalah angka dari Moonshot sendiri, tetapi jalur integrasi ini cukup rendah risiko untuk diuji dengan beban kerja masing-masing sebelum berkomitmen.
Pertanyaan praktis adalah apakah peningkatan efisiensi tersebut dapat dipertahankan dalam distribusi tugas tim. Menguji K2.7-Code dengan beban kerja masing-masing terlebih dahulu sebelum menyesuaikan bobot gateway adalah jalan yang minim risiko untuk mengetahuinya.

