Menjalankan MoE di Ponsel? Meta Mengusulkan MobileMoE, iPhone 16 Pro Dipercepat 3,8 Kali Lipat
Meta memperkenalkan MobileMoE, campuran model ahli (MoE) pertama yang dirancang untuk inferensi efisien di smartphone. Mengganti lapisan feed-forward padat dengan MoE, MobileMoE-S/M mencapai akurasi setara atau lebih tinggi dengan hanya 1/2 hingga 1/4 komputasi inferensi model padat dalam 14 tes dasar. Di iPhone 16 Pro, MobileMoE-S mempercepat inferensi hingga 3.8x pada fase input.
Model ini dilatih dalam empat tahap: pra-pelatihan, pelatihan menengah, fine-tuning terawasi, dan pelatihan aware-kuantisasi (kuantisasi INT4/INT8). Konfigurasi optimal menggunakan 8 ahli dengan granularitas 8, routing Top-4, dan 1 ahli bersama. Dalam evaluasi, MobileMoE mengungguli model seperti Qwen3.5 2B dan OLMoE-1B-7B dalam skala parameter lebih kecil, terutama unggul dalam tugas kode dan matematika.
Setelah kuantisasi INT4, kinerja tetap kompetitif. Di perangkat Samsung Galaxy S25 dan iPhone 16 Pro, MobileMoE menunjukkan peningkatan kecepatan signifikan dan penggunaan memori lebih rendah dibanding baseline. Tantangan ke depan mencakup peningkatan kemampuan penalaran, eksplorasi NPU, dan optimasi memori dinamis untuk routing MoE di perangkat seluler.
marsbit06/01 06:11