Menjalankan MoE di Ponsel? Meta Mengusulkan MobileMoE, iPhone 16 Pro Dipercepat 3,8 Kali Lipat

marsbitDipublikasikan tanggal 2026-06-01Terakhir diperbarui pada 2026-06-01

Abstrak

Meta memperkenalkan MobileMoE, campuran model ahli (MoE) pertama yang dirancang untuk inferensi efisien di smartphone. Mengganti lapisan feed-forward padat dengan MoE, MobileMoE-S/M mencapai akurasi setara atau lebih tinggi dengan hanya 1/2 hingga 1/4 komputasi inferensi model padat dalam 14 tes dasar. Di iPhone 16 Pro, MobileMoE-S mempercepat inferensi hingga 3.8x pada fase input. Model ini dilatih dalam empat tahap: pra-pelatihan, pelatihan menengah, fine-tuning terawasi, dan pelatihan aware-kuantisasi (kuantisasi INT4/INT8). Konfigurasi optimal menggunakan 8 ahli dengan granularitas 8, routing Top-4, dan 1 ahli bersama. Dalam evaluasi, MobileMoE mengungguli model seperti Qwen3.5 2B dan OLMoE-1B-7B dalam skala parameter lebih kecil, terutama unggul dalam tugas kode dan matematika. Setelah kuantisasi INT4, kinerja tetap kompetitif. Di perangkat Samsung Galaxy S25 dan iPhone 16 Pro, MobileMoE menunjukkan peningkatan kecepatan signifikan dan penggunaan memori lebih rendah dibanding baseline. Tantangan ke depan mencakup peningkatan kemampuan penalaran, eksplorasi NPU, dan optimasi memori dinamis untuk routing MoE di perangkat seluler.

Dalam beberapa tahun terakhir, Model Mixed Expert (MoE) telah banyak digunakan untuk model besar di cloud. Namun, di sisi perangkat seluler, Model Bahasa Besar (LLM) masih didominasi oleh arsitektur padat (dense). Dulu, kendala perangkat seluler terhadap memori, daya komputasi, dan latensi lebih ketat, sehingga penelitian sistematis tentang MoE sisi perangkat dengan parameter aktif dalam kisaran sub-miliar masih kurang. Kini, dengan peningkatan kapasitas DRAM perangkat seluler, MoE juga mulai berpeluang untuk di-deploy ke smartphone.

MobileMoE yang diusulkan oleh tim Meta, untuk pertama kalinya mewujudkan inferensi MoE yang efisien pada smartphone komersial. Hasilnya menunjukkan, dalam 14 tes dasar, MobileMoE-S/M dengan memori yang sebanding, hanya menggunakan 1/2 hingga 1/4 dari beban komputasi inferensi baseline padat, mampu mencapai akurasi rata-rata yang setara atau bahkan lebih tinggi. Dalam pengujian nyata, MobileMoE-S menunjukkan percepatan paling signifikan di backend GPU/MLX iPhone 16 Pro, pada fase input dapat dipercepat hingga 3,8 kali lipat.

Tautan makalah: https://arxiv.org/abs/2605.27358

Tim peneliti juga mengusulkan seperangkat aturan penskalaan MoE sisi perangkat, yang digunakan untuk menentukan struktur model yang lebih cocok untuk deployment di ponsel. MobileMoE membangun frontier Pareto baru untuk model bahasa besar sisi perangkat, mencapai hasil yang lebih optimal dalam trade-off antara akurasi dan biaya komputasi inferensi.

Gambar|MobileMoE membangun frontier Pareto baru untuk model bahasa besar sisi perangkat.

Bagaimana MobileMoE Dirancang?

MobileMoE dapat dipahami seperti ini: ini adalah kelas model bahasa MoE yang dirancang untuk deployment sisi perangkat. Secara keseluruhan tetap Transformer decoder-only, tetapi lapisan feed-forward padat asli diganti dengan lapisan MoE. Router akan memilih sedikit pakar (expert) dengan skor tertinggi untuk setiap token untuk berpartisipasi dalam komputasi, dan ada juga satu pakar bersama (shared expert) yang selalu berpartisipasi. Seluruh alur pelatihan dibagi menjadi empat langkah: pra-pelatihan, pelatihan menengah, fine-tuning terawasi (SFT), dan pelatihan sadar kuantisasi.

Pra-pelatihan: Tim peneliti melakukan pra-pelatihan dengan panjang konteks 2048 token, menggunakan data berlisensi terbuka sekitar 6T token, data secara keseluruhan didominasi Web, sambil mencakup bidang matematika, kode, pengetahuan, dan sains.

Pelatihan menengah: Tim peneliti memperluas panjang konteks menjadi 8192, dan lebih meningkatkan proporsi data berkualitas tinggi seperti pengetahuan, kode, matematika, dan sains, dengan total skala sekitar 500B token.

Fine-tuning Terawasi (SFT): Tim peneliti melakukan fine-tuning pada MobileMoE-Base menggunakan data instruksi fine-tuning berlisensi terbuka dengan lebih dari 80 juta sampel.

Pelatihan Sadar Kuantisasi: Tim peneliti mengkuantisasi lapisan linear dan embedding ke INT4, mengkuantisasi aktivasi dinamis ke INT8, sementara router tetap menjaga presisi FP32.

Gambar|Empat tahap pelatihan MobileMoE.

Hasil Eksperimen

Hasil Eksperimen Ablasi

Tim peneliti pertama membandingkan tiga variabel arsitektur: jumlah pakar E, granularitas pakar g, serta apakah menambahkan pakar bersama.

Gambar|Penskalaan jumlah pakar E.

Dalam anggaran memori tetap, ketika memori di atas sekitar 0,25GB, loss MoE mulai lebih rendah daripada model padat yang sesuai. Melanjutkan peningkatan jumlah pakar E, loss akan turun lebih jauh, tetapi ketika E bertambah menjadi 8, keuntungan marjinal sudah melemah nyata. Eksperimen pada granularitas pakar g menunjukkan, konfigurasi pakar yang lebih halus secara keseluruhan lebih baik, dengan g=8 mencapai keseimbangan yang baik antara efektivitas dan biaya pelatihan; ketika g bertambah dari 8 ke 16, perbaikan loss kurang dari 0,01, tetapi durasi pelatihan meningkat sekitar 50%. Dalam anggaran komputasi yang sama, dengan menambahkan pakar bersama, loss model turun lebih jauh.

Berdasarkan hasil eksperimen ablasi, tim peneliti akhirnya mengadopsi konfigurasi E=8, g=8, dengan pakar bersama, yaitu 60 pakar rute granular halus, rute Top-4, dan 1 pakar bersama, dan menggunakan struktur ini untuk tiga versi MobileMoE-S/M/L.

Gambar|Melakukan penskalaan pada model MoE dalam kondisi komputasi optimal.

Gambar|Efisiensi pelatihan arsitektur MoE.

14 Evaluasi Dasar: Membangun Frontier Pareto Baru Sisi Perangkat

Tim peneliti dalam lima kategori evaluasi dasar yaitu penalaran common sense, pengetahuan, sains, membaca, dan penalaran yang total 14 item, mengevaluasi kembali MobileMoE bersama model seperti Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B dalam pengaturan yang seragam.

Gambar|Jejak pra-pelatihan MobileMoE.

Hasil perbandingan model Base menunjukkan, rata-rata skor MobileMoE-M lebih tinggi daripada Qwen3.5 2B, rata-rata skor MobileMoE-L lebih tinggi daripada OLMoE-1B-7B, dengan ukuran model yang dibutuhkan juga lebih kecil; tim peneliti juga menyebutkan, versi Base MobileMoE-L rata-rata skornya sudah lebih tinggi daripada versi Instruct OLMoE-1B-7B. Dalam skala pelatihan, MobileMoE menggunakan sekitar 6T token pra-pelatihan, lebih sedikit daripada 9T token Llama 3.2 1B dan 11T token SmolLM2 1.7B. Dalam perbandingan keseluruhan model hasil instruksi fine-tuning, rata-rata akurasi MobileMoE-M sudah mendekati OLMoE-1B-7B, tetapi parameter aktif dan total parameter lebih sedikit sekitar 60%.

Gambar|Perbandingan model MobileMoE-Base.

Evaluasi Lanjutan: Keunggulan Lebih Menonjol dalam Tugas Kode dan Matematika

Dalam evaluasi lanjutan setelah instruksi fine-tuning, MobileMoE menunjukkan performa lebih menonjol pada tugas kode dan matematika. Misalnya MobileMoE-L, rata-rata skornya pada kedua kategori evaluasi kode dan matematika lebih tinggi daripada Qwen3.5 2B dan OLMoE- 1B-7B. Namun, tim peneliti juga menyebutkan, pada dua kemampuan instruksi following dan penalaran pengetahuan, Qwen3.5 2B masih lebih kuat.

Gambar|Perbandingan model Instruct pada benchmark lanjutan.

Kuantisasi dan Deployment Sisi Perangkat: Tetap Kompetitif Setelah INT4, Percepatan Nyata di Sisi Ponsel

Setelah kuantisasi, rata-rata skor keseluruhan MobileMoE-S/M/L menurun dibandingkan versi BF16 masing-masing, tetapi penurunannya berkisar antara 2 hingga 3 poin. Meski begitu, performa versi INT4 MobileMoE-L masih lebih tinggi daripada versi BF16 OLMoE-1B-7B Instruct.

Tim peneliti juga mendeploy MobileMoE ke Samsung Galaxy S25 dan iPhone 16 Pro untuk pengujian. Hasil menunjukkan, dalam kondisi memori bobot INT4 yang sebanding, MobileMoE-S dibandingkan MobileLLM-Pro, pada fase input dipercepat 1,8-3,8 kali lipat, pada fase generasi token demi token dipercepat 2,2-3,4 kali lipat.

Dalam hal penggunaan memori, pada Samsung Galaxy S25, konteks 8K, dan kondisi prompt nyata, RSS puncak MobileMoE-S adalah 1,49GB, lebih rendah daripada 1,91GB MobileLLM-Pro.

Gambar|Latensi runtime sisi perangkat.

Kekurangan dan Arah Masa Depan

Saat ini, pada kemampuan instruksi following yang lebih tinggi serta kemampuan pengetahuan dan penalaran, MobileMoE yang telah difine-tuning instruksi masih tertinggal dari Qwen3.5 2B. Tim peneliti berpendapat, kesenjangan ini mungkin terkait dengan pelatihan pasca (post-training) yang lebih matang. Di masa depan, untuk mengecilkan kesenjangan ini, sisi pelatihan perlu memperkuat distilasi, post-training yang berorientasi pada penalaran, serta ekspansi multimodal.

Selain itu, tim peneliti mencatat, penggunaan memori MoE di ponsel akan berubah seiring dengan konten input. Dibandingkan dengan input templat tetap, input nyata biasanya membawa penggunaan memori yang lebih tinggi. Jika pengujian hanya didasarkan pada input ter-templat, mungkin akan meremehkan tekanan memori dalam skenario deployment nyata. Di masa depan, untuk mengevaluasi lebih akurat performa memori nyata MoE sisi perangkat, masih diperlukan lebih banyak data pengukuran nyata berdasarkan pengujian nyata.

Di saat yang sama, tim peneliti telah menyelesaikan pengujian sistematis perangkat nyata di backend CPU dan GPU, tetapi jalur NPU masih perlu dieksplorasi. Sementara itu, penggunaan memori runtime MoE cukup sensitif terhadap konten input. Di masa depan, routing dinamis, pemangkasan pakar (expert pruning), kuantisasi presisi campuran, serta deployment NPU sisi perangkat seluler, semuanya adalah arah untuk terus meningkatkan efisiensi sisi perangkat.

Detail teknis lebih lanjut, lihat makalah asli.

Artikel ini berasal dari akun WeChat publik "Academic Headlines" (ID: SciTouTiao), penulis: Xia Qiansi

Pertanyaan Terkait

QApa itu MobileMoE dan mengapa penelitian ini penting untuk perangkat seluler?

AMobileMoE adalah arsitektur campuran ahli (Mixture of Experts/MoE) yang dirancang khusus untuk menyederhanakan penggunaan model bahasa besar (LLM) di perangkat seluler seperti smartphone. Penelitian ini penting karena membuktikan untuk pertama kalinya bahwa MoE dapat melakukan inferensi dengan efisien pada smartphone komersial, sehingga menghemat daya komputasi dan memori dibandingkan dengan model rapat (dense), dengan peningkatan kecepatan hingga 3,8 kali lipat pada iPhone 16 Pro.

QApa saja tahapan pelatihan utama untuk model MobileMoE?

ATerdapat empat tahapan pelatihan utama MobileMoE: (1) Pra-pelatihan dengan panjang konteks 2048 menggunakan sekitar 6T token data, (2) Pelatihan menengah untuk memperluas konteks hingga 8192 dengan fokus pada data berkualitas tinggi, (3) Supervised Fine-Tuning (SFT) menggunakan lebih dari 80 juta sampel data instruksi, dan (4) Pelatihan dengan kesadaran kuantisasi yang mengkuantisasi bobot model ke INT4 dan aktivasi ke INT8.

QApa hasil yang ditunjukkan MobileMoE pada pengujian di perangkat seluler nyata?

APada pengujian di Samsung Galaxy S25 dan iPhone 16 Pro, MobileMoE menunjukkan peningkatan kecepatan signifikan dibandingkan model baseline dense. MobileMoE-S mencapai percepatan hingga 3,8 kali lipat pada tahap input dan 2,2–3,4 kali lipat pada tahap pembuatan token di iPhone 16 Pro. Dalam hal penggunaan memori, pada konteks 8K, MobileMoE-S membutuhkan lebih sedikit RAM (1,49 GB) dibandingkan MobileLLM-Pro (1,91 GB).

QDalam tugas apa MobileMoE menunjukkan performa yang paling unggul?

AMobileMoE menunjukkan keunggulan paling menonjol dalam tugas-tugas yang berkaitan dengan pemrograman (kode) dan matematika, terutama pada model versi MobileMoE-L setelah fine-tuning instruksi. Model ini mampu mencetak skor rata-rata yang lebih tinggi daripada model kompetitor seperti Qwen3.5 2B dan OLMoE-1B-7B di area tugas tersebut.

QApa tantangan dan arahan pengembangan di masa depan untuk MobileMoE?

ABeberapa tantangan termasuk kemampuan mengikuti instruksi tingkat tinggi dan penalaran pengetahuan yang masih kalah dibandingkan model seperti Qwen3.5 2B, serta penggunaan memori runtime MoE yang sensitif terhadap variasi input. Arahan pengembangan di masa depan meliputi peningkatan teknik distilasi, pelatihan pasca (post-training) yang berorientasi pada penalaran, perluasan multimodal, eksplorasi penerapan pada NPU perangkat seluler, serta optimasi seperti routing dinamis dan kuantisasi presisi campuran.

Bacaan Terkait

Near Kembali ke Panggung AI: Transformasi ke Blockchain Publik karena "Kesulitan Gaji", Agen AI dan Privasi Jadi Kisah Pertumbuhan Baru

**Near Kembali ke Dunia AI: Dari Masalah Gaji Jadi Blockchain Publik, Fokus pada Agent dan Privasi** Near, yang didirikan oleh Illia Polosukhin (salah satu penulis makalah Transformer AI), awalnya adalah startup AI yang beralih membangun blockchain publik pada 2018. Penyebabnya adalah kesulitan membayar gaji developer global secara lintas batas menggunakan sistem pembayaran tradisional atau blockchain awal yang mahal dan lambat. Setelah melalui masa sebagai blockchain berkinerja tinggi dengan teknologi sharding dan meraih momentum di era *cross-chain*, Near kini kembali ke akar AI-nya. Momen kunci adalah ketika Polosukhin diundang oleh CEO Nvidia, Jensen Huang, pada Maret 2024, mengingatkan dunia tentang "darah AI" asli Near. Dengan fokus baru pada **Near Intents (Niat)** dan **Transaksi Privasi**, Near membidik pertumbuhan berikutnya: 1. **Near Intents**: Menyederhanakan pengalaman *cross-chain* dan DeFi. Pengguna atau AI Agent cukup menyatakan keinginan (misal, "tukar BTC jadi ETH"), dan jaringan *solver* akan menemukan rute terbaik. Mekanisme ini telah menangani **lebih dari $200 miliar** volume transaksi *cross-chain* dan menghasilkan **$34 juta** pendapatan biaya, dengan mayoritas (70%) datang dalam dua kuartal terakhir. 2. **Transaksi Privasi (*Confidential Swaps*)**: Menanggapi kebutuhan pasar akan privasi untuk menghindari MEV dan kebocoran strategi. Dalam 30 hari terakhir, transaksi privat menyumbang **41.63%** dari total volume transaksi di Near ($87 juta dari $209 juta). Fitur ini berpotensi menarik institusi tetapi juga membawa risiko perhatian regulator. Dengan kombinasi latar belakang pendiri di AI, infrastruktur *intent* yang ramah pengguna dan Agent, serta penawaran transaksi privat, Near berupaya membangun cerita pertumbuhan baru di persimpangan blockchain dan AI.

marsbit1j yang lalu

Near Kembali ke Panggung AI: Transformasi ke Blockchain Publik karena "Kesulitan Gaji", Agen AI dan Privasi Jadi Kisah Pertumbuhan Baru

marsbit1j yang lalu

Dari Ethereum ke "CROPS" AI: 'Variabel Lambat' yang Ditekankan Berulang oleh Vitalik Ini, Apa Sebenarnya?

Dalam beberapa kali kesempatan, Vitalik Buterin menekankan konsep "CROPS," singkatan dari Censorship Resistance (Tahan Sensor), Capture Resistance (Tahan Penangkapan), Open Source (Sumber Terbuka), Privacy (Privasi), dan Security (Keamanan). Konsep ini merupakan panduan inti bagi Ethereum Foundation, memfokuskan sumber dayanya untuk membangun kemampuan dasar yang memungkinkan pengguna mengelola aset, identitas, dan transaksi tanpa bergantung pada platform tunggal atau menyerahkan kendali akhir. Signifikansi CROPS semakin kritis dengan kemunculan AI, khususnya AI Agent yang menangani tugas seperti manajemen aset dan eksekusi transaksi otomatis. Tantangan utama adalah memastikan bahwa ketika AI bertindak sebagai perwakilan digital, ia tidak menjadi "kotak hitam" yang mengorbankan privasi, keamanan, dan kedaulatan pengguna. Oleh karena itu, diperlukan "CROPS AI" – AI yang dapat berjalan secara lokal, mengurangi ketergantungan pada layanan cloud terpusat, serta transparan dan terverifikasi. Terdapat titik temu antara "CROPS Ethereum Access Layer" dan "CROPS AI." Keduanya berusaha menjawab pertanyaan serupa: bagaimana pengguna dapat mengakses kemampuan jarak jauh (seperti RPC blockchain atau model bahasa besar/LLM) tanpa mengekspos informasi pribadi, identitas, atau niat mereka secara penuh? Solusi yang diusulkan termasuk penggunaan bukti tanpa pengetahuan (zero-knowledge proofs) untuk panggilan LLM berbayar yang privat dan pembacaan RPC Ethereum yang aman. Pada akhirnya, CROPS bukan sekadar konsep abstrak. Dalam era di mana AI semakin menguasai dunia digital, prinsip-prinsip ini akan membentuk arah pengembangan produk Web3, terutama di lapisan dompet digital, untuk memastikan pengguna tetap memegang kendali atas kehidupan digital mereka. Ini adalah variabel jangka panjang yang menentukan nilai Ethereum di masa depan.

marsbit1j yang lalu

Dari Ethereum ke "CROPS" AI: 'Variabel Lambat' yang Ditekankan Berulang oleh Vitalik Ini, Apa Sebenarnya?

marsbit1j yang lalu

"Bapak Godfather Venture Capital" Lembah Silikon Steve Hoffman: Web3 + AI Bisa Jadi Sebuah Jebakan

Stevie Hoffman, "Godfather of Silicon Valley Venture Capital", menyatakan bahwa integrasi Web3 dan AI bisa menjadi sebuah jebakan. Dalam wawancara, ia berbagi pandangannya tentang tren AI global dan peluang startup. Hoffman percaya Silicon Valley akan tetap memimpin riset dasar model AI canggih, sementara China akan unggul dalam implementasi aplikasi praktis dan dominasi di bidang robotika. Ia menekankan pentingnya pendekatan "Global from Day 1" untuk startup, karena adaptasi nanti jauh lebih sulit dan mahal. Mengenai Autonomous Agents, Hoffman memperkirakan titik balik nyata di mana agen dapat berkolaborasi secara mandiri akan datang dalam 2-4 tahun, yang akan menyebabkan penggantian tenaga kerja berskala besar. Solusinya adalah mendesain bisnis untuk kolaborasi manusia-AI, bukan otomatisasi penuh, serta reformasi sistem pelatihan ulang dan jaminan sosial. Untuk startup AI awal, saran Hoffman adalah fokus pada inovasi mendalam di ceruk vertikal spesifik yang membutuhkan keahlian domain, karena ini adalah benteng pertahanan terhadap raksasa teknologi. Kecepatan iterasi adalah parit pertahanan terpenting. Dalam menanggapi pertanyaan tentang Web3 + AI, Hoffman dengan tegas menyatakan bahwa bagi kebanyakan konsumen dan bisnis mainstream, Web3 menambah friksi dan kompleksitas tanpa menyelesaikan kebutuhan inti mereka. AI adalah teknologi dasar universal yang benar-benar mengubah industri. Memaksakan integrasi Web3 dan AI adalah sebuah jebakan yang menambah kompleksitas tanpa melipatgandakan nilai bagi pasar mainstream. Hoffman juga membagikan rencana nirlabanya untuk mendirikan pusat penelitian di universitas guna melatih calon pemimpin dalam inovasi AI yang bertanggung jawab dan selaras dengan nilai-nilai inti manusia.

marsbit2j yang lalu

"Bapak Godfather Venture Capital" Lembah Silikon Steve Hoffman: Web3 + AI Bisa Jadi Sebuah Jebakan

marsbit2j yang lalu

Token Tidak Ekonomis, Ekonomi Tidak Token

Dengan rencana IPO OpenAI dan investasi besar dari raksasa seperti Berkshire Hathaway di Alphabet, industri AI kini mencapai titik balik penting. Dua narasi utama mendominasi: "kekurangan dana" dan "pemisahan aset" (spin-off). Kekurangan dana terjadi karena struktur biaya AI yang unik. Berbeda dengan platform internet tradisional di mana biaya marjinal mendekati nol, model AI seperti ChatGPT justru meningkatkan biaya komputasi (inference cost) seiring pertumbuhan pengguna. Selain itu, pola investasi seperti "kredit cloud" yang digunakan Microsoft untuk mendanai OpenAI menciptakan "pencatatan sirkular", di mana uang yang sama dihitung sebagai pendapatan, menyamarkan tekanan arus kas yang sebenarnya. OpenAI, misalnya, diperkirakan baru akan profit pada 2029. Di sisi lain, tren spin-off aset AI oleh perusahaan besar (seperti Ke Ling dari Kuaishou dan Kunlunxin dari Baidu) mengungkap logika valuasi baru. Di dalam perusahaan induk, unit AI sering dianggap sebagai pusat biaya yang menekan margin. Namun, setelah dipisah, aset yang sama bisa mendapatkan valuasi 3x lipat lebih tinggi di pasar modal, karena dinilai berdasarkan kelangkaan, prospek pertumbuhan, dan potensi ceruk pasar sebagai "aset infrastruktur AI". Perubahan ini menandai pergeseran mendasar dari narasi yang didominasi teknologi menjadi efisiensi modal. Industri bergerak dari "kultus model" terkuat menuju "realisasi nilai" yang dapat dikomersialkan. Inti persaingan mulai bergeser dari perlombaan daya komputasi chip tunggal (GPU) menuju efisiensi sistemik menyeluruh, di mana CPU dan perangkat lunak orchestration menjadi krusial untuk profitabilitas. Singkatnya, tahun 2026 menjadi momen penentuan di mana industri AI harus menjawab pertanyaan mendasar: berapa sebenarnya nilai teknologi ini? Jawabannya akan membentuk lanskap kekuatan industri untuk dekade mendatang.

marsbit2j yang lalu

Token Tidak Ekonomis, Ekonomi Tidak Token

marsbit2j yang lalu

Trading

Spot
Futures
活动图片