Industri AI kini memasuki era “agen,” di mana model AI tidak hanya mampu menghasilkan teks, tetapi juga aktif merencanakan, mengeksekusi, dan memperbaiki tugas kompleks selama berhari-hari. Dalam konteks ini, tidak mengherankan jika tim peneliti AI terkenal dari Alibaba, Qwen Team, meluncurkan model baru yang mampu menjalankan tugas-tugas tersebut. Model ini bernama Qwen3.7-Max, yang menurut pernyataan perusahaan memiliki kemampuan untuk menjalankan “eksekusi otonom terus menerus” selama sekitar 35 jam, meskipun dalam format yang bersifat kepemilikan dan bukan open source seperti peluncuran sebelumnya.
Pembatasan ini adalah sesuatu yang banyak dianalisis dan ditakutkan oleh para ahli industri setelah beberapa pemimpin tim Qwen hengkang awal tahun ini. Namun, secara finansial, langkah Alibaba ini cukup logis, setidaknya dalam jangka pendek. Pelatihan model AI, terutama yang sekuat Qwen3.7-Max, memang sangat mahal. Memberikan model seperti ini secara gratis sebagai open source tidak segera membantu mengembalikan biaya yang dikeluarkan.
Dari sudut pandang ini, Alibaba berusaha untuk menyelaraskan upayanya dengan raksasa AI Amerika seperti OpenAI dan Google, hanya menawarkan model terbaru melalui API berbayar dan paket langganan, sementara model yang sedikit kurang performanya tersedia melalui open source. Meski begitu, hadirnya Qwen3.7-Max memberikan lebih banyak opsi bagi perusahaan dan pengguna individu, serta menghadirkan kompetisi bagi laboratorium AI di AS, yang tentunya menjadi hal positif untuk konsumen dari berbagai kalangan. Namun, model ini hanya dapat diakses melalui endpoint yang berbasis di China, yang mungkin membatasi daya tariknya untuk perusahaan-perusahaan di Amerika dan Eropa yang ingin memaksimalkan kepatuhan serta keamanan saat memenuhi kontrak pemerintah.
Era AI Maraton
Untuk memahami mengapa Qwen3.7-Max adalah langkah maju dari model sebelumnya, perlu dilihat bagaimana model ini dilatih dan bagaimana cara kerjanya. Model bahasa umumnya mengalami penurunan performa ketika diminta menjaga satu jalur pemikiran selama ribuan interaksi. Mereka bisa saja melupakan instruksi, mengalami halusinasi variabel, atau terjebak dalam loop logika. Namun, Qwen3.7-Max dirancang sebagai “fondasi agen yang serbaguna” yang bisa melakukan “penalaran jangka panjang” untuk mengatasi kendala ini.
Contoh nyata dari kemampuan ini adalah sebuah tugas rekayasa otonom yang diambil oleh tim Qwen. Model ini diberikan akses ke server terisolasi yang dilengkapi T-Head ZW-M890 PPU—arsitektur perangkat keras yang belum pernah ditemui selama pelatihan. Tugasnya adalah mengoptimalkan kernel perhatian. Selama 35 jam penuh, Qwen3.7-Max beroperasi sepenuhnya otonom, melakukan 1.158 panggilan alat, 432 evaluasi kernel, mendiagnosis kegagalan kompilasi, dan secara iteratif memperbaiki kode untuk mencapai peningkatan kecepatan 10.0x.
Jika dibandingkan, para pesaing China seperti z.ai’s GLM-5.1 dan Moonshot’s Kimi K2.6 hanya mencapai peningkatan 7.3x dan 5.0x, sering kali secara sukarela mengakhiri sesi mereka ketika tidak dapat mencapai kemajuan. Meskipun keduanya tersedia dalam format open source. Ketahanan ini dicapai melalui apa yang disebut Alibaba sebagai “skala lingkungan”. Seperti halnya LLM awal yang menjadi lebih pintar dengan mengonsumsi teks yang lebih beragam, Qwen3.7-Max dilatih di berbagai lingkungan agen dinamis yang luas.
Model ini mampu mensimulasikan siklus hidup satu tahun sebuah startup dalam evaluasi “YC-Bench”, navigasi dengan ratusan putaran pengambilan keputusan terkait manajemen personel dan seleksi kontrak. Dalam simulasi ini, model berhasil menghasilkan pendapatan virtual sebesar $2,08 juta, yang hampir dua kali lipat dari kinerja generasi sebelumnya, Qwen3.6-Plus.
Lebih jauh lagi, model ini dilengkapi dengan pemantauan diri yang dapat mendeteksi saat berusaha menipu lingkungan pelatihan dan menambahkan aturan heuristik untuk memperbaiki perilakunya sendiri.
Otak untuk Setiap Infrastruktur
Dari sudut pandang produk, Qwen3.7-Max dirancang sebagai mesin kognitif untuk pengembangan perangkat lunak modern dan otomatisasi perusahaan. Model ini menawarkan konteks jendela sebanyak 1 juta token dan batas output maksimum 64K, memberikan kapasitas lebih untuk memproses basis kode yang luas atau dokumen teknis yang panjang.
Salah satu fitur paling menarik adalah “generalisasi lintas-harness”. Alih-alih dikodekan untuk bekerja paling baik dalam antarmuka proprietari tertentu, Qwen3.7-Max dibangun untuk berfungsi sebagai lapisan kecerdasan yang dapat segera digunakan dalam berbagai kerangka agen. Model ini secara native mendukung protokol API Anthropic, memungkinkan pengembang untuk mengintegrasikannya langsung ke dalam alat yang ada seperti Claude Code atau OpenClaw.
Data benchmark yang disediakan oleh Alibaba menunjukkan bahwa pendekatan yang terdistribusi ini memberikan imbal hasil yang besar. Pada benchmark Apex Math Reasoning, Qwen3.7-Max mencetak 44,5, mengungguli Claude Opus-4.6 Max yang mendapatkan skor 34,5 dan DeepSeek V4-Pro Max yang mendapatkan skor 38,3. Qwen3.7-Max juga mendapatkan skor dominan pada Humanity’s Last Exam (41,4) dan benchmark agen pemrograman realistis MCP-Atlas (76,4).
Melalui integrasi Protokol Konteks Model (MCP) yang bersifat open source, model ini dapat beroperasi sebagai asisten kantor otonom, mampu membaca spesifikasi format universitas dan secara otomatis memperbaiki dokumen Word yang berantakan hanya dengan perintah tanpa intervensi manusia.
Tentu saja, menjalankan tingkat kecerdasan ini datang dengan biaya tertentu. Pengembang yang mengakses API melalui Alibaba Cloud Model Studio akan membayar $2,50 per 1 juta token masukan dan $7,50 per 1 juta token keluaran. Platform ini juga menawarkan biaya pembuatan cache dan pembacaan yang jelas, serta biaya $10 per 1.000 panggilan untuk pencarian web yang terintegrasi, meskipun alat interpreter kode tetap gratis untuk waktu yang terbatas.
Qwen3.7-Max menempati posisi strategis di tengah-tengah ekonomi API saat ini. Meskipun memerlukan biaya lebih tinggi dibandingkan pesaing domestik yang harganya agresif—hampir dua kali lipat biaya DeepSeek V4 Pro ($5,22) dan Z.ai’s GLM-5.1 ($5,80)—model ini secara signifikan lebih murah dibandingkan raksasa frontier Barat yang sering dinilai sebanding dalam benchmark. Untuk konteks, menjalankan alur kerja agen berat melalui GPT-5.4 dari OpenAI atau Claude Opus 4.7 dari Anthropic akan biaya pengembang $17,50 dan $30,00 per juta token, masing-masing.
Dengan menempatkan Qwen3.7-Max sedikit di bawah Gemini 3.5 Flash dari Google ($10,50) tetapi jauh di atas model-tier anggaran, Alibaba mengisyaratkan bahwa ini bukanlah rilis biasa; ini adalah mesin penalaran unggulan yang ditujukan untuk menarik beban kerja perusahaan dari tawaran termahal Silicon Valley.
Lisensi Masih Kepemilikan untuk Saat Ini
Terlepas dari segala kecemerlangan teknisnya, aspek paling kontroversial dari Qwen3.7-Max adalah cara distribusinya. Qwen menilai rilis ini sebagai “model proprietari” dan hanya tersedia melalui API.
Sejarahnya, Qwen dari Alibaba telah menjadi pahlawan bagi komunitas open source dan LLM lokal. Iterasi sebelumnya, seperti Qwen 2.5 dan Qwen 3.6, merilis bobotnya secara publik. Bobot yang terbuka memungkinkan pengembang, peneliti, dan perusahaan untuk mengunduh model, menjalankannya di perangkat keras mereka sendiri, dan menyempurnakannya untuk kasus penggunaan yang sangat spesifik atau sensitif tanpa mengirimkan informasi proprietari ke server pihak ketiga.
Dengan mengunci Qwen3.7-Max di balik API, Alibaba beralih ke buku permainan komersial standar yang digunakan oleh OpenAI (dengan GPT-4) dan Anthropic (dengan Claude). Bagi pengguna perusahaan, ini berarti memerlukan kepercayaan kepada Alibaba Cloud dalam pengelolaan aliran data dan bergantung sepenuhnya pada konektivitas internet untuk menjalankan alur kerja agen mereka. Sementara bagi komunitas open source, ini berarti kehilangan akses ke salah satu model terkuat saat ini di dunia.
Reaksi Komunitas Terpecah antara Kekaguman dan Kekecewaan
Reaksi dari komunitas pengembang sangat cepat, dengan campuran rasa hormat yang mendalam terhadap pencapaian rekayasa dan frustrasi terhadap model lisensi. Komentator AI terkemuka, Sudo su (@sudoingX), menangkap sentimen yang mendominasi di X (dulu Twitter), dengan menyatakan, “qwen is unreal. Mereka baru saja meluncurkan 3.7 max dan mengalahkan opus 4.6 max di sebagian besar benchmark yang mereka jalankan.”
Metrik teknis, terutama ketahanan model ini, membuat banyak orang di bidang ini terpesona. “Angka matematika apex, 44.5 melawan opus 34.5, bukanlah jarak yang kecil,” catat Sudo su. “35 jam berturut-turut pada tugas optimasi kernel dengan lebih dari 1000 panggilan alat adalah bagian yang saya terus baca ulang. Ini adalah era agen yang benar-benar terjadi, bukan hanya slide.”
Kecepatan iterasi Alibaba juga menarik perhatian. Dengan Qwen 3.6 yang dirilis hanya sebulan yang lalu, loncatan ke 3.7-Max menunjukkan ritme pengembangan yang tak henti-hentinya. Seperti yang diobservasi Sudo su, “tidak ada orang lain yang bergerak seperti ini.”
Namun, pujian ini sering kali diwarnai oleh pergeseran ke ekosistem tertutup. Kehilangan bobot model dianggap sebagai pukulan bagi gerakan AI lokal yang bergantung pada model terbuka mutakhir untuk mendorong batas-batas dari apa yang bisa dilakukan pada perangkat keras konsumen atau cluster perusahaan pribadi.
“Satu hal yang saya harap, tolong buka sumber ini juga,” pinta Sudo su dalam postingnya. “3.6 yang padat membuat seluruh ekosistem LLM lokal menjadi lebih baik. Model tier maksimum yang hanya tersedia melalui API akan menutup pintu yang telah kami jaga terbuka. Berikan kami bobotnya pada akhirnya.”
Qwen3.7-Max membuktikan bahwa era agen otonom bukan lagi proyeksi teoretis; ini adalah kenyataan yang mampu menyelesaikan tugas-tugas rekayasa kompleks sementara manusia tidur. Pertanyaannya kini adalah apakah frontier baru AI ini akan menjadi sumber daya yang didemokratisasi yang bisa diunduh ke laptop kita, atau apakah ini adalah utilitas kecerdasan yang hanya dapat disewa dari cloud. Saat ini, dengan Qwen3.7-Max, jelas bahwa ini adalah yang terakhir.

