手机上跑MoE?Meta提出MobileMoE,iPhone 16 Pro提速3.8倍
Meta团队提出MobileMoE,首次在商用智能手机上实现了高效的混合专家模型(MoE)推理。该模型面向端侧设计,采用MoE层替代传统稠密前馈层,通过路由机制为每个token选择少数专家进行计算,并包含共享专家。MobileMoE-S/M版本在内存相近的情况下,仅需稠密基线1/2到1/4的计算量,在14项基础评测中达到持平或更高的平均准确率,为端侧大语言模型建立了新的帕累托前沿。
在iPhone 16 Pro的实测中,MobileMoE-S在输入阶段最高提速3.8倍,逐token生成阶段提速2.2-3.4倍,且峰值内存占用低于对比模型。量化至INT4后性能降幅较小,仍保持竞争力。
研究同时探讨了专家数量、粒度及共享专家等架构选择,确定了E=8、g=8、带共享专家的优化配置。尽管MobileMoE在代码和数学任务上表现突出,但在高阶指令遵循与知识推理上仍落后于Qwen3.5 2B。未来需通过蒸馏、后训练及多模态扩展进一步提升,并探索NPU部署、动态路由等方向以优化端侧效率。
marsbit06/01 06:09