Menjalankan MoE di Ponsel? Meta Mengusulkan MobileMoE, iPhone 16 Pro Dipercepat 3,8 Kali Lipat

marsbitDipublikasikan tanggal 2026-06-01Terakhir diperbarui pada 2026-06-01

Abstrak

Meta memperkenalkan MobileMoE, campuran model ahli (MoE) pertama yang dirancang untuk inferensi efisien di smartphone. Mengganti lapisan feed-forward padat dengan MoE, MobileMoE-S/M mencapai akurasi setara atau lebih tinggi dengan hanya 1/2 hingga 1/4 komputasi inferensi model padat dalam 14 tes dasar. Di iPhone 16 Pro, MobileMoE-S mempercepat inferensi hingga 3.8x pada fase input. Model ini dilatih dalam empat tahap: pra-pelatihan, pelatihan menengah, fine-tuning terawasi, dan pelatihan aware-kuantisasi (kuantisasi INT4/INT8). Konfigurasi optimal menggunakan 8 ahli dengan granularitas 8, routing Top-4, dan 1 ahli bersama. Dalam evaluasi, MobileMoE mengungguli model seperti Qwen3.5 2B dan OLMoE-1B-7B dalam skala parameter lebih kecil, terutama unggul dalam tugas kode dan matematika. Setelah kuantisasi INT4, kinerja tetap kompetitif. Di perangkat Samsung Galaxy S25 dan iPhone 16 Pro, MobileMoE menunjukkan peningkatan kecepatan signifikan dan penggunaan memori lebih rendah dibanding baseline. Tantangan ke depan mencakup peningkatan kemampuan penalaran, eksplorasi NPU, dan optimasi memori dinamis untuk routing MoE di perangkat seluler.

Dalam beberapa tahun terakhir, Model Mixed Expert (MoE) telah banyak digunakan untuk model besar di cloud. Namun, di sisi perangkat seluler, Model Bahasa Besar (LLM) masih didominasi oleh arsitektur padat (dense). Dulu, kendala perangkat seluler terhadap memori, daya komputasi, dan latensi lebih ketat, sehingga penelitian sistematis tentang MoE sisi perangkat dengan parameter aktif dalam kisaran sub-miliar masih kurang. Kini, dengan peningkatan kapasitas DRAM perangkat seluler, MoE juga mulai berpeluang untuk di-deploy ke smartphone.

MobileMoE yang diusulkan oleh tim Meta, untuk pertama kalinya mewujudkan inferensi MoE yang efisien pada smartphone komersial. Hasilnya menunjukkan, dalam 14 tes dasar, MobileMoE-S/M dengan memori yang sebanding, hanya menggunakan 1/2 hingga 1/4 dari beban komputasi inferensi baseline padat, mampu mencapai akurasi rata-rata yang setara atau bahkan lebih tinggi. Dalam pengujian nyata, MobileMoE-S menunjukkan percepatan paling signifikan di backend GPU/MLX iPhone 16 Pro, pada fase input dapat dipercepat hingga 3,8 kali lipat.

Tautan makalah: https://arxiv.org/abs/2605.27358

Tim peneliti juga mengusulkan seperangkat aturan penskalaan MoE sisi perangkat, yang digunakan untuk menentukan struktur model yang lebih cocok untuk deployment di ponsel. MobileMoE membangun frontier Pareto baru untuk model bahasa besar sisi perangkat, mencapai hasil yang lebih optimal dalam trade-off antara akurasi dan biaya komputasi inferensi.

Gambar|MobileMoE membangun frontier Pareto baru untuk model bahasa besar sisi perangkat.

Bagaimana MobileMoE Dirancang?

MobileMoE dapat dipahami seperti ini: ini adalah kelas model bahasa MoE yang dirancang untuk deployment sisi perangkat. Secara keseluruhan tetap Transformer decoder-only, tetapi lapisan feed-forward padat asli diganti dengan lapisan MoE. Router akan memilih sedikit pakar (expert) dengan skor tertinggi untuk setiap token untuk berpartisipasi dalam komputasi, dan ada juga satu pakar bersama (shared expert) yang selalu berpartisipasi. Seluruh alur pelatihan dibagi menjadi empat langkah: pra-pelatihan, pelatihan menengah, fine-tuning terawasi (SFT), dan pelatihan sadar kuantisasi.

Pra-pelatihan: Tim peneliti melakukan pra-pelatihan dengan panjang konteks 2048 token, menggunakan data berlisensi terbuka sekitar 6T token, data secara keseluruhan didominasi Web, sambil mencakup bidang matematika, kode, pengetahuan, dan sains.

Pelatihan menengah: Tim peneliti memperluas panjang konteks menjadi 8192, dan lebih meningkatkan proporsi data berkualitas tinggi seperti pengetahuan, kode, matematika, dan sains, dengan total skala sekitar 500B token.

Fine-tuning Terawasi (SFT): Tim peneliti melakukan fine-tuning pada MobileMoE-Base menggunakan data instruksi fine-tuning berlisensi terbuka dengan lebih dari 80 juta sampel.

Pelatihan Sadar Kuantisasi: Tim peneliti mengkuantisasi lapisan linear dan embedding ke INT4, mengkuantisasi aktivasi dinamis ke INT8, sementara router tetap menjaga presisi FP32.

Gambar|Empat tahap pelatihan MobileMoE.

Hasil Eksperimen

Hasil Eksperimen Ablasi

Tim peneliti pertama membandingkan tiga variabel arsitektur: jumlah pakar E, granularitas pakar g, serta apakah menambahkan pakar bersama.

Gambar|Penskalaan jumlah pakar E.

Dalam anggaran memori tetap, ketika memori di atas sekitar 0,25GB, loss MoE mulai lebih rendah daripada model padat yang sesuai. Melanjutkan peningkatan jumlah pakar E, loss akan turun lebih jauh, tetapi ketika E bertambah menjadi 8, keuntungan marjinal sudah melemah nyata. Eksperimen pada granularitas pakar g menunjukkan, konfigurasi pakar yang lebih halus secara keseluruhan lebih baik, dengan g=8 mencapai keseimbangan yang baik antara efektivitas dan biaya pelatihan; ketika g bertambah dari 8 ke 16, perbaikan loss kurang dari 0,01, tetapi durasi pelatihan meningkat sekitar 50%. Dalam anggaran komputasi yang sama, dengan menambahkan pakar bersama, loss model turun lebih jauh.

Berdasarkan hasil eksperimen ablasi, tim peneliti akhirnya mengadopsi konfigurasi E=8, g=8, dengan pakar bersama, yaitu 60 pakar rute granular halus, rute Top-4, dan 1 pakar bersama, dan menggunakan struktur ini untuk tiga versi MobileMoE-S/M/L.

Gambar|Melakukan penskalaan pada model MoE dalam kondisi komputasi optimal.

Gambar|Efisiensi pelatihan arsitektur MoE.

14 Evaluasi Dasar: Membangun Frontier Pareto Baru Sisi Perangkat

Tim peneliti dalam lima kategori evaluasi dasar yaitu penalaran common sense, pengetahuan, sains, membaca, dan penalaran yang total 14 item, mengevaluasi kembali MobileMoE bersama model seperti Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B dalam pengaturan yang seragam.

Gambar|Jejak pra-pelatihan MobileMoE.

Hasil perbandingan model Base menunjukkan, rata-rata skor MobileMoE-M lebih tinggi daripada Qwen3.5 2B, rata-rata skor MobileMoE-L lebih tinggi daripada OLMoE-1B-7B, dengan ukuran model yang dibutuhkan juga lebih kecil; tim peneliti juga menyebutkan, versi Base MobileMoE-L rata-rata skornya sudah lebih tinggi daripada versi Instruct OLMoE-1B-7B. Dalam skala pelatihan, MobileMoE menggunakan sekitar 6T token pra-pelatihan, lebih sedikit daripada 9T token Llama 3.2 1B dan 11T token SmolLM2 1.7B. Dalam perbandingan keseluruhan model hasil instruksi fine-tuning, rata-rata akurasi MobileMoE-M sudah mendekati OLMoE-1B-7B, tetapi parameter aktif dan total parameter lebih sedikit sekitar 60%.

Gambar|Perbandingan model MobileMoE-Base.

Evaluasi Lanjutan: Keunggulan Lebih Menonjol dalam Tugas Kode dan Matematika

Dalam evaluasi lanjutan setelah instruksi fine-tuning, MobileMoE menunjukkan performa lebih menonjol pada tugas kode dan matematika. Misalnya MobileMoE-L, rata-rata skornya pada kedua kategori evaluasi kode dan matematika lebih tinggi daripada Qwen3.5 2B dan OLMoE- 1B-7B. Namun, tim peneliti juga menyebutkan, pada dua kemampuan instruksi following dan penalaran pengetahuan, Qwen3.5 2B masih lebih kuat.

Gambar|Perbandingan model Instruct pada benchmark lanjutan.

Kuantisasi dan Deployment Sisi Perangkat: Tetap Kompetitif Setelah INT4, Percepatan Nyata di Sisi Ponsel

Setelah kuantisasi, rata-rata skor keseluruhan MobileMoE-S/M/L menurun dibandingkan versi BF16 masing-masing, tetapi penurunannya berkisar antara 2 hingga 3 poin. Meski begitu, performa versi INT4 MobileMoE-L masih lebih tinggi daripada versi BF16 OLMoE-1B-7B Instruct.

Tim peneliti juga mendeploy MobileMoE ke Samsung Galaxy S25 dan iPhone 16 Pro untuk pengujian. Hasil menunjukkan, dalam kondisi memori bobot INT4 yang sebanding, MobileMoE-S dibandingkan MobileLLM-Pro, pada fase input dipercepat 1,8-3,8 kali lipat, pada fase generasi token demi token dipercepat 2,2-3,4 kali lipat.

Dalam hal penggunaan memori, pada Samsung Galaxy S25, konteks 8K, dan kondisi prompt nyata, RSS puncak MobileMoE-S adalah 1,49GB, lebih rendah daripada 1,91GB MobileLLM-Pro.

Gambar|Latensi runtime sisi perangkat.

Kekurangan dan Arah Masa Depan

Saat ini, pada kemampuan instruksi following yang lebih tinggi serta kemampuan pengetahuan dan penalaran, MobileMoE yang telah difine-tuning instruksi masih tertinggal dari Qwen3.5 2B. Tim peneliti berpendapat, kesenjangan ini mungkin terkait dengan pelatihan pasca (post-training) yang lebih matang. Di masa depan, untuk mengecilkan kesenjangan ini, sisi pelatihan perlu memperkuat distilasi, post-training yang berorientasi pada penalaran, serta ekspansi multimodal.

Selain itu, tim peneliti mencatat, penggunaan memori MoE di ponsel akan berubah seiring dengan konten input. Dibandingkan dengan input templat tetap, input nyata biasanya membawa penggunaan memori yang lebih tinggi. Jika pengujian hanya didasarkan pada input ter-templat, mungkin akan meremehkan tekanan memori dalam skenario deployment nyata. Di masa depan, untuk mengevaluasi lebih akurat performa memori nyata MoE sisi perangkat, masih diperlukan lebih banyak data pengukuran nyata berdasarkan pengujian nyata.

Di saat yang sama, tim peneliti telah menyelesaikan pengujian sistematis perangkat nyata di backend CPU dan GPU, tetapi jalur NPU masih perlu dieksplorasi. Sementara itu, penggunaan memori runtime MoE cukup sensitif terhadap konten input. Di masa depan, routing dinamis, pemangkasan pakar (expert pruning), kuantisasi presisi campuran, serta deployment NPU sisi perangkat seluler, semuanya adalah arah untuk terus meningkatkan efisiensi sisi perangkat.

Detail teknis lebih lanjut, lihat makalah asli.

Artikel ini berasal dari akun WeChat publik "Academic Headlines" (ID: SciTouTiao), penulis: Xia Qiansi

Pertanyaan Terkait

QApa itu MobileMoE dan mengapa penelitian ini penting untuk perangkat seluler?

AMobileMoE adalah arsitektur campuran ahli (Mixture of Experts/MoE) yang dirancang khusus untuk menyederhanakan penggunaan model bahasa besar (LLM) di perangkat seluler seperti smartphone. Penelitian ini penting karena membuktikan untuk pertama kalinya bahwa MoE dapat melakukan inferensi dengan efisien pada smartphone komersial, sehingga menghemat daya komputasi dan memori dibandingkan dengan model rapat (dense), dengan peningkatan kecepatan hingga 3,8 kali lipat pada iPhone 16 Pro.

QApa saja tahapan pelatihan utama untuk model MobileMoE?

ATerdapat empat tahapan pelatihan utama MobileMoE: (1) Pra-pelatihan dengan panjang konteks 2048 menggunakan sekitar 6T token data, (2) Pelatihan menengah untuk memperluas konteks hingga 8192 dengan fokus pada data berkualitas tinggi, (3) Supervised Fine-Tuning (SFT) menggunakan lebih dari 80 juta sampel data instruksi, dan (4) Pelatihan dengan kesadaran kuantisasi yang mengkuantisasi bobot model ke INT4 dan aktivasi ke INT8.

QApa hasil yang ditunjukkan MobileMoE pada pengujian di perangkat seluler nyata?

APada pengujian di Samsung Galaxy S25 dan iPhone 16 Pro, MobileMoE menunjukkan peningkatan kecepatan signifikan dibandingkan model baseline dense. MobileMoE-S mencapai percepatan hingga 3,8 kali lipat pada tahap input dan 2,2–3,4 kali lipat pada tahap pembuatan token di iPhone 16 Pro. Dalam hal penggunaan memori, pada konteks 8K, MobileMoE-S membutuhkan lebih sedikit RAM (1,49 GB) dibandingkan MobileLLM-Pro (1,91 GB).

QDalam tugas apa MobileMoE menunjukkan performa yang paling unggul?

AMobileMoE menunjukkan keunggulan paling menonjol dalam tugas-tugas yang berkaitan dengan pemrograman (kode) dan matematika, terutama pada model versi MobileMoE-L setelah fine-tuning instruksi. Model ini mampu mencetak skor rata-rata yang lebih tinggi daripada model kompetitor seperti Qwen3.5 2B dan OLMoE-1B-7B di area tugas tersebut.

QApa tantangan dan arahan pengembangan di masa depan untuk MobileMoE?

ABeberapa tantangan termasuk kemampuan mengikuti instruksi tingkat tinggi dan penalaran pengetahuan yang masih kalah dibandingkan model seperti Qwen3.5 2B, serta penggunaan memori runtime MoE yang sensitif terhadap variasi input. Arahan pengembangan di masa depan meliputi peningkatan teknik distilasi, pelatihan pasca (post-training) yang berorientasi pada penalaran, perluasan multimodal, eksplorasi penerapan pada NPU perangkat seluler, serta optimasi seperti routing dinamis dan kuantisasi presisi campuran.

Bacaan Terkait

Krisis Paruh Baya GP Crypto: Tanpa PMF, Tidak Ada Cek Berikutnya dari LP

**Krisis Paruh Baya GP Crypto: Tanpa PMF, Tak Ada Cek Berikutnya dari LP** Pasar crypto telah berubah drastis. LP (Limited Partner) tidak lagi membeli mimpi dan visi jarak jauh, melainkan menuntut produk konkret dengan Product-Market Fit (PMF) yang jelas. Bagi kebanyakan General Partner (GP), era "membeli masa depan" telah berakhir, digantikan oleh fase "membeli produk" yang bisa menunjukkan hasil nyata dan relatif pasti. LP kehilangan kepercayaan terhadap cerita "siklus berikutnya" dan menjadi lebih hati-hati. Dana tradisional telah melewati fase pembelajaran awal dan kini memiliki banyak pilihan lain seperti ETF crypto, yang menawarkan eksposur tanpa harus mengunci dana dalam waktu panjang seperti di VC blind pool. Kemudahan akses informasi dan turunnya biaya tenaga ahli juga memungkinkan LP untuk belajar dan berinvestasi secara mandiri, mengurangi ketergantungan pada GP yang hanya mengandalkan klaim "memahami crypto". Artikel ini mengkategorikan produk penggalangan dana crypto menjadi tiga jenis besar: **Primary** (VC), **Liquid**, dan **CeFi/DeFi Native Yield**. Fokus bagian ini adalah pada pasar Primary. Ada beberapa alasan utama LP sebelumnya berinvestasi di VC crypto: untuk menangkap pertumbuhan industri (beta), mendapatkan akses ke deal yang baik, mengandalkan penilaian (judgement) superior GP, memanfaatkan kemampuan GP menghubungkan jaringan (攒局能力), atau sekadar untuk reputasi. Namun, masing-masing alasan ini kini melemah seiring matangnya pasar dan banyaknya GP yang gagal membuktikan kinerja superior mereka. Kini, hanya segelintir pemain yang mungkin tetap bertahan di meja primary VC crypto: 1. Dana besar (seperti endowment) dengan modal sabar yang memperlakukan investasi ini seperti tiket lotre. 2. Keluarga kaya (Family Office) atau perusahaan yang berinvestasi menggunakan dana sendiri untuk investasi strategis sangat awal. 3. Sejumlah kecil GP yang benar-benar menghasilkan keuntungan luar biasa bagi LP di siklus ini dan masih dipercaya. 4. GP dengan kemampuan jaringan dan sumber daya ekosistem yang kuat untuk menukar kepentingan dengan LP. Bagi GP lainnya, jalan keluar adalah membangun kembali kepercayaan dari nol, dengan membuktikan kemampuan di ceruk pasar (niche) tertentu atau menawarkan layanan bernilai spesifik, sebelum bisa berkembang kembali.

链捕手12m yang lalu

Krisis Paruh Baya GP Crypto: Tanpa PMF, Tidak Ada Cek Berikutnya dari LP

链捕手12m yang lalu

Era Decoupling Tiba, Bitcoin Bukan Lagi Kompas Tunggal Dunia Kripto

Era Dekopling Tiba, Bitcoin Bukan Satu-Satunya Kompas di Dunia Kripto Pasar kripto tradisional yang selama ini pergerakannya mengikuti Bitcoin perlahan memasuki era akhir. Ekonomi kripto kini terbagi menjadi dua kubu utama: aset endogen dan aset eksogen. Aset endogen, seperti Bitcoin, nilainya sepenuhnya bergantung pada siklus pasar kripto secara keseluruhan. Sementara aset eksogen, meski secara nominal berada di jalur kripto, nilai dan perkembangannya semakin independen dari pasar kripto. Contohnya adalah proyek seperti Hyperliquid yang berada di antara kedua kubu, serta proyek seperti Venice AI dan perusahaan seperti Figure yang hampir seluruhnya terlepas dari ketergantungan pada harga aset kripto. Perbedaan mendasar terletak pada pendorong nilainya. Aset endogen bergerak mengikuti sentimen dan harga Bitcoin, layaknya saham tambang emas kecil yang mengikuti harga emas. Sebaliknya, aset eksogen didorong oleh permintaan penggunaan aktual dan fundamental bisnisnya sendiri, seperti pendapatan dari layanan berbayar (misalnya, layanan inferensi AI Venice) atau pertumbuhan bisnis inti (misalnya, layanan pinjaman Figure). Perubahan ini memiliki implikasi signifikan. Investasi di sektor eksogen memerlukan analisis fundamental layaknya menganalisis perusahaan tradisional—meneliti basis pengguna berbayar, model ekonomi, dan daya saing—daripada sekadar membaca grafik harga Bitcoin. Tren ini juga membuka peluang investasi yang lebih berkelanjutan dan tidak terikat siklus bull/bear kripto. Beberapa sektor eksogen yang potensial meliputi: bursa dan layanan broker on-chain, solusi penyelesaian untuk tokenisasi aset panjang, integrasi mendalam kripto + AI (seperti inferensi privat), bank digital baru, sektor pinjaman, penerbit stablecoin, penyedia tokenisasi aset dunia nyata, jalur pembayaran, produk konsumen kripto non-keuangan, dan ekonomi agen/aset cerdas. Saat ini, berinvestasi melalui ekuitas perusahaan masih menjadi cara utama untuk mengekspos sektor ini, dengan token yang layak sebagai pengecualian. Meski mekanisme token sebagai pembawa nilai masih perlu penyempurnaan lebih lanjut, tren intinya sudah jelas: pendorong pasar kripto sedang bergeser dari faktor tunggal (Bitcoin) menjadi multifaktor, mengubah fokus analisis industri dari grafik harga menjadi fundamental bisnis.

marsbit1j yang lalu

Era Decoupling Tiba, Bitcoin Bukan Lagi Kompas Tunggal Dunia Kripto

marsbit1j yang lalu

Lima Kripto yang Bisa Mengungguli Bitcoin pada Siklus Berikutnya Berkat Velocity Pertumbuhan yang Lebih Tinggi

Bitcoin terus menentukan arah pasar, namun seiring pertumbuhan kapitalisasi pasarnya, analis menyatakan keuntungan persentase tertinggi dalam siklus berikutnya kemungkinan datang dari aset dengan kecepatan pertumbuhan lebih tinggi. Artikel ini menyoroti lima kripto yang diyakini dapat mengungguli Bitcoin dalam hal persentase keuntungan. Ethereum (ETH) dipandang memiliki potensi kenaikan relatif lebih kuat karena aktivitas jaringan dan adopsi institusional. Solana (SOL) dikenal dengan throughput tinggi dan biaya rendah, seringkali berkinerja tajam saat likuiditas kembali. Chainlink (LINK) sebagai penyedia oracle utama diperkirakan mendapat keuntungan seiring ekspansi ekosistem. Avalanche (AVAX) diharapkan mendapat manfaat dari tokenisasi aset dunia nyata dan arsitektur subnetnya. Aset yang paling disorot adalah **Ozak AI ($OZ)**, yang sedang dalam fase pra-penjualan dengan harga $0,014 dan target harga listing $1. Proyek ini membangun ekosistem blockchain berbasis AI, termasuk *Prediction Agents*, jaringan data real-time, integrasi dengan Arbitrum Orbit, dan *Data Vaults*. Analis berpendapat aset tahap awal seperti Ozak AI memiliki asimetri terbesar, di mana likuiditas baru dapat dengan cepat mengubah valuasinya, menawarkan kecepatan pertumbuhan eksponensial dibandingkan aset matang seperti Bitcoin. Artikel ini menekankan bahwa sementara Bitcoin memimpin pasar, aset infrastruktur AI tahap awal seperti Ozak AI bisa menjadi tempat pertumbuhan tercepat terungkap dalam siklus berikutnya.

TheNewsCrypto1j yang lalu

Lima Kripto yang Bisa Mengungguli Bitcoin pada Siklus Berikutnya Berkat Velocity Pertumbuhan yang Lebih Tinggi

TheNewsCrypto1j yang lalu

Trading

Spot
Futures
活动图片