Model AI di perangkat tetap kecil karena seluruh set parameter harus disimpan di DRAM, yang membatasi jumlah parameter aktual jauh di bawah yang digunakan dalam penerapan di server. Arsitek perusahaan yang mengevaluasi beban kerja agentic harus memilih antara model yang bergantung pada cloud yang canggih dan model di perangkat yang terbatas. Namun, model dasar generasi ketiga Apple, yang diumumkan dalam WWDC26, memecahkan kendala ini dengan memindahkan set berat sepenuhnya dari DRAM.
Keluarga AFM 3 dikembangkan bekerja sama dengan Google dan mencakup lima model: dua di perangkat dan tiga berbasis server, semua beroperasi dalam batas Private Cloud Compute milik Apple. Model berbasis server, termasuk AFM 3 Cloud Pro untuk penggunaan alat agentic dan penalaran kompleks, berjalan di GPU Nvidia di Google Cloud. Arsitektur di perangkat adalah buatan Apple sendiri. AFM 3 Core Advanced adalah model dengan 20 miliar parameter yang menyimpan berat di NAND flash, bukan di DRAM.
“Alih-alih memaksakan seluruh model ke dalam DRAM, model penuh disimpan di memori flash,” tulis tim riset Apple. “Karena bandwidth NAND-ke-DRAM terlalu lambat untuk menukar berat token demi token, seperti yang diperlukan oleh model MoE standar, AFM 3 Core Advanced membuat keputusan pengalihan per permintaan.”
Bagaimana Arsitektur ini Bekerja
Dinding memori yang dihadapi Apple adalah tantangan umum bagi setiap pengembang AI lokal.
“Anda tidak bisa memasukkan 20 miliar parameter ke dalam RAM dengan akurasi yang wajar,” tulis Awni Hannun, seorang peneliti di Anthropic, di X. “Untuk membuatnya berfungsi, mereka menggunakan arsitektur yang cukup eksotis menurut standar saat ini. Model kecil memprediksi dari kueri (atau permintaan) ahli mana yang perlu dimuat dari NAND ke RAM.”
Mekanisme prediksi dan pemuatan ini memiliki tiga komponen yang berbeda, masing-masing didorong oleh batasan perangkat keras dari silikon konsumen.
Set berat penuh hidup di flash, bukan di DRAM. AFM 3 Core Advanced menyimpan seluruh set parameternya di NAND flash daripada di memori aktif. Penerapan standar di perangkat mengharuskan seluruh model cocok pada DRAM, yang membatasi jumlah parameternya. Pendekatan Apple, yang disebut Pruning Mengikuti Instruksi (IFP) dan dikembangkan oleh peneliti mereka sendiri, memperlakukan flash sebagai tempat tinggal permanen model dan DRAM sebagai buffer kerja untuk ahli yang dibutuhkan oleh permintaan tertentu.
Pemetaan ahli terjadi sekali per permintaan, bukan per token. Dalam model Mixture of Experts konvensional, sebuah pengarah memilih berbagai ahli untuk setiap token yang dihasilkan — yang akan memerlukan perpindahan berat yang terus-menerus antara flash dan DRAM pada kecepatan inferensi. Bandwidth NAND-ke-DRAM tidak dapat mendukung ini. AFM 3 Core Advanced melakukan pemetaan sekali saat permintaan berlangsung, memilih sekumpulan ahli tetap, memuatnya ke dalam DRAM bersama dengan ahli yang selalu aktif, dan menghasilkan semua token dari konfigurasi yang sama.
“Perbedaan kunci dari MoE yang tipikal adalah Anda melakukan ini sekali per kueri dan kemudian menghasilkan semua token dengan ahli yang sama,” tulis Hannun.
Jumlah parameter aktif bervariasi dari 1 miliar hingga 4 miliar tergantung pada kompleksitas tugas. Alih-alih menjalankan ukuran model tetap untuk setiap permintaan, AFM 3 Core Advanced menyesuaikan berapa banyak parameter yang diaktifkan berdasarkan apa yang dibutuhkan tugas — 1 miliar untuk operasi yang lebih sederhana, hingga 4 miliar untuk yang lebih kompleks, semuanya diambil dari kolam 20 miliar parameter di flash.
Apa yang Disampaikan dan Tidak Disampaikan Apple
Dokumen arsitektur sangat terperinci mengenai desain memori dan mekanisme aktivasi yang jarang. Namun, informasi tentang kendala penerapan praktis terasa kurang.
Alat pemprofilan Apple mengungkapkan waktu tetapi tidak metrik yang menentukan kelayakan produksi. “Energi, bandwidth memori, termal? Tidak ada dalam dokumen,” tulis Marco Abis, yang sedang membangun Ziraph, pemprofil untuk AI lokal di silikon Apple, di X. “Ini adalah kesenjangan signifikan, mengingat faktor-faktor ini menentukan sebagian besar kinerja di perangkat.”
Abis juga tidak menemukan pernyataan dalam dokumentasi Apple — di seluruh dokumen Core AI, dokumen Model Dasar, atau pos keamanan Private Cloud Compute — kapan permintaan di perangkat secara transparan melakukan pemuatan, atau apakah pemetaan itu terlihat oleh pengembang atau pengguna. Bagi perusahaan yang perlu mendokumentasikan di mana inferensi berjalan, ini menjadi masalah kepatuhan yang langsung.
Tidak semua informasi saat ini tersedia. Apple telah menunjukkan bahwa laporan teknis penuh dengan benchmark akan diumumkan akhir musim panas ini.
Apa Artinya untuk Arsitek Perusahaan
Industri yang diatur yang sedang mengevaluasi penerapan AI agentic kini memiliki keputusan arsitektural konkret untuk dibuat.
-
Dinding DRAM untuk agen di perangkat baru saja digeser. Perusahaan yang mengevaluasi agen yang perlu berjalan tanpa perjalanan bolak-balik ke cloud kini memiliki opsi lokal dengan 20 miliar parameter untuk dievaluasi. Keterbatasan beralih dari kemampuan model ke perangkat keras perangkat.
-
Batasan privat/cloud kini menjadi keputusan arsitektural, bukan default. Permintaan yang lebih sederhana tetap di perangkat; tugas agentic kompleks diarahkan ke AFM 3 Cloud Pro di Private Cloud Compute. Apple belum secara publik menentukan kapan permintaan dialihkan atau apakah pemetaan itu terlihat oleh pengembang — ini menjadi kesenjangan yang mempersulit keputusan kebijakan bagi organisasi yang perlu mendokumentasikan di mana inferensi berjalan.
-
Tingkat server agentic bergantung pada Google Cloud. AFM 3 Cloud Pro berjalan di GPU Nvidia di Google Cloud. Jaminan Private Cloud Compute melindungi privasi data. Namun, itu tidak menghilangkan ketergantungan pada Google Cloud untuk inferensi sisi server.
AFM 3 Core Advanced memberikan perusahaan opsi di perangkat dengan 20 miliar parameter yang sebelumnya tidak ada sebelum WWDC26. Apakah ini dapat diterapkan secara luas tergantung pada jawaban yang belum dipublikasikan oleh Apple. Detail tersebut dijadwalkan akan tersedia dalam laporan teknis musim panas ini.

