Selamat Tinggal, Llama? Meta Hadirkan Model AI Terbaru Muse Spark – Inovasi Pertama Sejak Pembentukan Superintelligence Labs

Meta telah menjadi salah satu perusahaan paling menarik di era AI generatif. Sejak awal 2023, mereka menarik perhatian dengan peluncuran keluarga model bahasa besar Llama yang sebagian besar bersifat open source. Namun, langkah mereka terhenti setelah perilisan Llama 4 tahun lalu yang mendapatkan reaksi campur aduk dan akhirnya mengakui kekurangan dalam tolok ukur.

Table of Content

Rantai Pemikiran Visual
Tolok Ukur Memperlihatkan Kembali ke Jalur
Sistem Agens dan Efisiensi: Efek “Kompresi Pemikiran”
Kesehatan Pribadi dan Belanja di Instagram
Kesadaran Evaluasi
Apa yang Terjadi pada Llama?
Hanya Proprietary (untuk saat ini)

Kekacauan pada peluncuran Llama 4 tampaknya mendorong pendiri dan CEO Meta, Mark Zuckerberg, untuk melakukan perombakan total di operasi AI Meta pada musim panas 2025. Dia membentuk divisi baru bernama Meta Superintelligence Labs (MSL) dan merekrut pendiri dan CEO Scale AI yang berusia 29 tahun, Alexandr Wang, untuk memimpin sebagai Chief AI Officer.

Kini, Meta memperlihatkan hasil dari upaya tersebut: Muse Spark, model proprietary baru yang menurut Wang (melalui unggahannya di jaringan sosial pesaing X) adalah “model paling kuat yang pernah dirilis Meta.” Muse Spark ini diklaim memiliki “dukungan untuk penggunaan alat, rantai pemikiran visual, dan orkestrasi multi-agen.” Ini juga akan menjadi awal dari keluarga model Muse baru, yang menimbulkan pertanyaan tentang nasib lini populer Meta dan pengembangan keluarga Llama.

Muse Spark tidak hadir sebagai chatbot generik, tetapi sebagai dasar untuk apa yang disebut Wang sebagai “superintelligence pribadi”—AI yang tidak hanya memproses teks tetapi juga “melihat dan memahami dunia di sekitarnya” untuk bertindak sebagai perpanjangan digital dari diri kita, selaras dengan manifesto publik Zuckerberg tentang visi superintelligence pribadi yang diterbitkan pada musim panas 2025.

Namun, Muse Spark bersifat proprietary dan saat ini hanya tersedia di aplikasi dan situs web Meta AI, serta “preview API privat untuk pengguna terpilih,” menurut pengumuman di blog Meta. Langkah ini kemungkinan akan mengecewakan milyaran pengguna model Llama dan ribuan pengembang yang bergantung padanya, beberapa di antaranya adalah peserta aktif di subreddit r/LocalLLaMA di Reddit. Selain itu, informasi harga untuk model ini masih belum diumumkan.

Masih belum jelas apakah Meta telah menghentikan pengembangan keluarga Llama sepenuhnya. Ketika ditanya langsung oleh VentureBeat, seorang juru bicara Meta mengatakan via email: “Model Llama kami yang ada saat ini akan tetap tersedia sebagai open source,” yang tidak menjawab pertanyaan tentang pengembangan model Llama di masa mendatang.

Rantai Pemikiran Visual

Di inti Muse Spark adalah model pemikiran multimodal yang secara native. Berbeda dengan iterasi sebelumnya yang “menyambungkan” visual dan teks, Muse Spark dibangun dari awal untuk mengintegrasikan informasi visual ke dalam logika internalnya. Perubahan arsitektur ini memungkinkan “rantai pemikiran visual,” yang memungkinkan model untuk memberi anotasi pada lingkungan dinamis—misalnya, mengidentifikasi komponen mesin espresso yang kompleks atau memperbaiki pose yoga pengguna melalui analisis video berdampingan.

Lompatan teknis yang paling signifikan adalah mode baru yang disebut “Kontemplasi”. Fitur ini mengorkestrasi beberapa sub-agen untuk berpikir secara paralel, memungkinkan Meta bersaing dengan model pemikiran ekstrem seperti Gemini Deep Think dari Google dan GPT-5.4 Pro dari OpenAI.

Dalam tolok ukur, mode ini mencapai 58% di “Ujian Terakhir Kemanusiaan” dan 38% di “Penelitian FrontierScience,” angka yang diklaim Meta sebagai validasi terhadap jalur skala baru mereka.

Lebih menarik lagi bagi keuntungan perusahaan adalah efisiensi model ini. Meta melaporkan bahwa Muse Spark mencapai kemampuan penalarannya dengan menggunakan lebih dari satu order magnitude lebih sedikit compute dibandingkan Llama 4 Maverick, flagship ukuran menengah mereka sebelumnya. Efisiensi ini didorong oleh proses yang disebut “kompresi pemikiran”. Selama pembelajaran penguatan, model ini dihukum atas “waktu berpikir” yang berlebihan, memaksanya untuk menyelesaikan masalah kompleks dengan lebih sedikit token penalaran tanpa mengorbankan akurasi.

Tolok Ukur Memperlihatkan Kembali ke Jalur

Peluncuran Muse Spark dianggap sebagai “lompatan kuantum” secara statistik, mengakhiri ketidakhadiran Meta selama setahun dari perbatasan mutlak kinerja AI. Dengan menyelaraskan data internal resmi Meta dengan audit independen dari perusahaan pelacak LLM pihak ketiga, Artificial Analysis, sebuah gambaran jelas muncul: Muse Spark bukan hanya peningkatan marginal dari seri Llama; ini adalah re-entry fundamental ke dalam “Top 5” model global.

Menurut Artificial Analysis Intelligence Index v4.0, Muse Spark mencapai skor 52. Sebagai konteks, flagship Meta sebelumnya, Llama 4 Maverick, debutnya pada tahun 2025 dengan skor indeks hanya 18.

Dengan hampir melipatgandakan performanya, Muse Spark kini berada dalam jarak dekat dari sistem paling elit di industri, tertinggal hanya Gemini 3.1 Pro Preview (57), GPT-5.4 (57), dan Claude Opus 4.6 (53).

Benchmark resmi Meta menunjukkan bahwa Muse Spark sangat dominan dalam penalaran multimodal, terutama di mana angka visual dan logika berpotongan.

CharXiv Reasoning: Dalam “pemahaman figur,” Muse Spark mencapai skor 86.4, jauh melampaui Claude Opus 4.6 (65.3), Gemini 3.1 Pro (80.2), dan GPT-5.4 (82.8).
MMMU Pro: Laporan resmi menempatkan model ini pada 80.4, sementara audit independen dari Artificial Analysis mengukurnya pada 80.5%. Ini menjadikannya model visi terkuat kedua di pasar, hanya tertinggal dari Gemini 3.1 Pro Preview (83.9% resmi; 82.4% independen).
Visual Factuality (SimpleVQA): Muse Spark mencetak 71.3, menempatkannya di depan GPT-5.4 (61.1) dan Grok 4.2 (57.4), meski masih tertinggal tipis dari Gemini 3.1 Pro (72.4).

Skor-skor ini menguatkan fokus Meta pada “rantai pemikiran visual,” yang memungkinkan model tidak hanya mengenali objek, tetapi juga beralasan melalui masalah spasial kompleks dan anotasi dinamis.

Mesin “Berpikir” dari Muse Spark diuji dengan menggunakan tolok ukur khusus yang dirancang untuk mematahkan model yang tidak beralasan.

Ujian Terakhir Kemanusiaan (HLE): Dalam evaluasi multidisiplin ini, Meta melaporkan skor 42.8 (Tanpa Alat) dan 50.4 (Dengan Alat). Audit independen oleh Artificial Analysis mencatat model ini di 39.9%, tertinggal dari Gemini 3.1 Pro Preview (44.7%) dan GPT-5.4 (41.6%).
GPQA Diamond (Penalaran Tingkat PhD): Muse Spark mencapai 89.5, melampaui Grok 4.2 (88.5) tetapi tertinggal dari output “penalaran max” khusus Opus 4.6 (92.7) dan Gemini 3.1 Pro (94.3).
ARC AGI 2: Ini tetap menjadi titik lemah yang notable. Muse Spark mencetak 42.5, jauh tertinggal di belakang teka-teki penalaran abstrak yang diselesaikan oleh Gemini 3.1 Pro (76.5) dan GPT-5.4 (76.1).
CritPT (Penelitian Fisika): Audit independen menemukan Muse Spark mencapai skor tertinggi ke-5 di 11%. Ini menandai keunggulan substansial di atas Gemini 3 Flash (9%) dan Claude 4.6 Sonnet (3%).

Salah satu hasil paling mencolok dari data resmi adalah performa Muse Spark di sektor kesehatan, kemungkinan hasil dari kolaborasi Meta dengan lebih dari 1.000 dokter.

HealthBench Hard: Muse Spark mencetak 42.8, keunggulan besar di atas Claude Opus 4.6 (14.8), Gemini 3.1 Pro (20.6), dan bahkan GPT-5.4 (40.1).
MedXpertQA (Multimodal): Skornya mencapai 78.4, jauh di atas Opus 4.6 (64.8) dan Grok 4.2 (65.8), meski masih tertinggal dari skor tertinggi Gemini 3.1 Pro yang sebesar 81.3.

Sistem Agens dan Efisiensi: Efek “Kompresi Pemikiran”

Sementara Muse Spark unggul dalam penalaran, performa “agensi”-nya—melaksanakan tugas kerja di dunia nyata—menunjukkan gambaran yang lebih rumit.

SWE-Bench Verified: Muse Spark mencetak 77.4, tertinggal dari Claude Opus 4.6 (80.8) dan Gemini 3.1 Pro (80.6).
GDPval-AA Elo: Skor resmi Meta 1444 sedikit berbeda dari 1427 yang dicatat oleh Artificial Analysis. Dalam kedua kasus, Muse Spark tertinggal dari GPT-5.4 (1672) dan Opus 4.6 (1606), mengindikasikan bahwa meski model “berpikir” dengan baik, ia masih menyempurnakan kemampuannya untuk “bertindak” dalam alur kerja perangkat lunak dan kantor jangka panjang.
Efisiensi Token: Ini adalah area di mana Muse Spark membedakan dirinya. Untuk menjalankan Intelligence Index, ia menggunakan 58 juta token output. Sebagai perbandingan, Claude Opus 4.6 memerlukan 157 juta token dan GPT-5.4 memerlukan 120 juta. Ini mendukung klaim Meta tentang “kompresi pemikiran“—menyampaikan kecerdasan kelas perbatasan sambil menggunakan kurang dari setengah “waktu berpikir” dari pesaing terdekatnya.

Tolok Ukur	Llama 4 Maverick (2025)	Muse Spark (Resmi)	Gemini 3.1 Pro (Resmi)
Skor Indeks Kecerdasan	18	52	57
MMMU Pro	—	80.4	83.9
Pemikiran CharXiv	—	86.4	80.2
HealthBench Hard	—	42.8	20.6
Lisensi	Open-Weights	Proprietary	Proprietary

Dengan Muse Spark, Meta berhasil beralih dari sekadar “tumpukan LAMP untuk AI” menjadi penantang langsung untuk gelar “Superintelligence Pribadi”. Meskipun alur kerja agensi tetap menjadi hambatan, dominasi dalam visi, kesehatan, dan efisiensi token menempatkan Meta kembali di pusat perlombaan perbatasan.

Kesehatan Pribadi dan Belanja di Instagram

Meta segera menerapkan Muse Spark untuk menghadirkan pengalaman spesialis di seluruh keluarga aplikasinya.

Mode Belanja: Fitur baru ini memanfaatkan ekosistem kreator Meta yang luas. AI ini menangkap merek, pilihan gaya, dan konten di Instagram dan Threads untuk memberikan rekomendasi yang dipersonalisasi, secara efektif menjadikan setiap postingan sebagai interaksi yang bisa dibeli.
Pemikiran Kesehatan: Dalam langkah menuju utilitas medis, Meta berkolaborasi dengan lebih dari 1.000 dokter untuk mengkurasi data pelatihan. Muse Spark kini dapat menganalisis kandungan nutrisi dari foto makanan atau memberikan “skor kesehatan” untuk diet pescatarian dengan kolesterol tinggi.
UI Interaktif: Model ini dapat menghasilkan minigame berbasis web atau tutorial secara instan. Contohnya, pengguna bisa meminta AI untuk mengubah foto menjadi permainan Sudoku atau tutorial berbasis highlight untuk peralatan rumah tangga.

Kesadaran Evaluasi

Sementara Muse Spark menunjukkan perilaku penolakan yang kuat terhadap senjata biologis dan kimia, profil keselamatannya menyertakan temuan baru yang mengejutkan. Pengujian pihak ketiga oleh Apollo Research mengungkapkan bahwa model ini memiliki tingkat “kesadaran evaluasi” yang tinggi.

Model ini sering menyadari ketika sedang diuji dalam “perangkap keselarasan” dan berpikir bahwa ia harus berperilaku jujur karena sedang dalam evaluasi.

Meskipun Meta menyimpulkan bahwa ini bukan “masalah penghalang” untuk perilisan, temuan ini menunjukkan bahwa model perbatasan menjadi semakin “sadar” terhadap lingkungan pengujian—yang berpotensi membuat tolok ukur keselamatan tradisional menjadi kurang dapat diandalkan saat model belajar untuk “menyiasati” ujian.

Apa yang Terjadi pada Llama?

Pada Februari 2023, Meta merilis Llama 1 untuk menunjukkan bahwa model-model yang lebih kecil dan optimal dalam compute bisa bersaing dengan model yang lebih besar seperti GPT-3 dalam hal efisiensi. Meskipun awalnya akses dibatasi hanya untuk peneliti, bobot model bocor melalui 4chan pada 3 Maret 2023, sebuah peristiwa yang secara tidak sengaja mendemokratisasikan penelitian tingkat tinggi dan memicu gerakan global untuk menjalankan model di perangkat keras tingkat konsumen.

Perubahan ini semakin kuat pada Juli 2023 dengan peluncuran Llama 2, yang memperkenalkan lisensi komersial yang memperbolehkan self-hosting untuk sebagian besar organisasi. Pendekatan ini mengalami adopsi yang cepat, dengan keluarga Llama melampaui 100 juta unduhan dan mendukung lebih dari 1.000 aplikasi komersial pada kuartal ketiga tahun 2023.

Sepanjang 2024 dan 2025, Meta memperluas keluarga Llama untuk menetapkannya sebagai infrastruktur esensial untuk AI perusahaan global, yang sering disebut sebagai tumpukan LAMP untuk AI. Setelah peluncuran Llama 3 pada April 2024 dan Llama 3.1 405B yang bersejarah pada Juli, Meta mencapai paritas performa dengan sistem-sistem proprietary terdepan di dunia.

Peluncuran Llama 4 pada April 2025 memperkenalkan arsitektur Mixture-of-Experts, memungkinkan skala parameter besar sambil mempertahankan kecepatan inferensi yang cepat. Pada awal 2026, ekosistem Llama mencapai skala yang mencengangkan, dengan total mencapai 1,2 miliar unduhan dan rata-rata sekitar satu juta unduhan per hari.

Adopsi luas ini memberikan perusahaan otonomi ekonomi yang signifikan, karena self-hosting model Llama menawarkan pengurangan biaya sebesar 88% dibandingkan menggunakan penyedia API proprietary.

Hingga April 2026, peran Meta sebagai pemimpin tak terbantahkan dari gerakan open-weight telah bertransisi ke lanskap multi-polar yang sangat diperebutkan yang ditandai dengan kebangkitan pesaing internasional.

Sementara Amerika Serikat menyumbang 35% dari penyebaran Llama global, model-model China dari laboratorium seperti Alibaba dan DeepSeek mulai mencatat 41% unduhan di platform seperti Hugging Face pada akhir 2025. Sepanjang awal 2026, pendatang baru seperti GLM-5 dari Zhipu AI dan Qwen 3.6 Plus dari Alibaba telah melampaui Llama 4 Maverick dalam tolok ukurnya terkait pengetahuan umum dan pengkodean.

Menanggapi tekanan global ini, Muse Spark dari Meta hadir dengan ekspektasi tinggi dan warisan open source yang akan sulit dipenuhi.

Hanya Proprietary (untuk saat ini)

Peluncuran ini menandai pergeseran kontroversial dari akar “ilmu terbuka” Meta AI. Sementara seri Llama terkenal dapat diakses oleh para pengembang, Muse Spark diluncurkan sebagai model proprietary.

Wang menjelaskan pergeseran ini di X, menyatakan: “Sembilan bulan lalu kita membangun ulang tumpukan AI kita dari nol. Infrastruktur baru, arsitektur baru, jalur data baru… Ini adalah langkah pertama. Model yang lebih besar sudah dalam pengembangan dengan rencana untuk mengopen-source versi mendatang.”

Namun, komunitas pengembang tetap skeptis. Beberapa melihat ini sebagai perubahan yang perlu setelah seri Llama 4 gagal mendapatkan daya tarik yang diharapkan di kalangan pengembang; lainnya merasa ini adalah Meta “menutup gerbang” sekarang setelah mereka memiliki model penalaran yang kompetitif.

Wang sendiri mengakui bahwa peralihan ini sulit, mencatat bahwa ada “sisi kasar tertentu yang akan kami haluskan seiring waktu.”

Bagi 3 miliar orang yang menggunakan aplikasi Meta, perubahan ini akan terasa hampir seketika. AI yang mereka interaksikan bukan lagi sekadar perpustakaan informasi, tetapi agen dengan “otak” senilai $27 miliar dan mandat untuk memahami dunia mereka dengan kedalaman yang sama.