手机上跑MoE?Meta提出MobileMoE,iPhone 16 Pro提速3.8倍

marsbit发布于2026-06-01更新于2026-06-01

文章摘要

Meta团队提出MobileMoE,首次在商用智能手机上实现了高效的混合专家模型(MoE)推理。该模型面向端侧设计,采用MoE层替代传统稠密前馈层,通过路由机制为每个token选择少数专家进行计算,并包含共享专家。MobileMoE-S/M版本在内存相近的情况下,仅需稠密基线1/2到1/4的计算量,在14项基础评测中达到持平或更高的平均准确率,为端侧大语言模型建立了新的帕累托前沿。 在iPhone 16 Pro的实测中,MobileMoE-S在输入阶段最高提速3.8倍,逐token生成阶段提速2.2-3.4倍,且峰值内存占用低于对比模型。量化至INT4后性能降幅较小,仍保持竞争力。 研究同时探讨了专家数量、粒度及共享专家等架构选择,确定了E=8、g=8、带共享专家的优化配置。尽管MobileMoE在代码和数学任务上表现突出,但在高阶指令遵循与知识推理上仍落后于Qwen3.5 2B。未来需通过蒸馏、后训练及多模态扩展进一步提升,并探索NPU部署、动态路由等方向以优化端侧效率。

近年来,混合专家模型(MoE)已广泛用于云端大模型。但在手机端,大语言模型(LLM)仍以稠密架构为主。过去,手机设备对内存、算力和时延的约束更严苛,子十亿活跃参数范围内的端侧 MoE 一直缺少系统研究。如今,随着移动设备 DRAM 容量提升,MoE 也开始有机会部署到智能手机上。

Meta 团队提出的 MobileMoE,首次在商用智能手机上实现了高效的 MoE 推理。结果显示,在 14 个基础测试中,MobileMoE-S/M 在内存相近的情况下,仅用稠密基线 1/2 到 1/4 的推理计算量,就做到了持平甚至更高的平均准确率。实测中,MobileMoE-S 在 iPhone 16 Pro 的 GPU/MLX 后端提速最明显,输入阶段最高可提速 3.8 倍

论文链接:https://arxiv.org/abs/2605.27358

研究团队还提出了一套端侧 MoE 缩放规律,用于确定更适合手机部署的模型结构。MobileMoE 并为端侧大语言模型建立了新的帕累托前沿,在精度与推理计算开销的权衡上取得了更优结果。

图|MobileMoE 为端侧大语言模型建立了新的帕累托前沿。

MobileMoE是如何设计的?

MobileMoE 可以这样理解:它是一类面向端侧部署设计的MoE 语言模型。整体仍是decoder-only Transformer,但把原来的稠密前馈层换成了 MoE 层。路由器会为每个 token 选出得分最高的少数专家参与计算,同时还有一个共享专家始终参与计算。整个训练流程分为四步:预训练、中期训练、监督微调和量化感知训练

预训练:研究团队在 2048 的上下文长度下,使用约 6T token 的开放许可数据进行预训练,数据整体以 Web 为主,同时覆盖数学、代码、知识和科学等领域。

中期训练:研究团队将上下文长度扩展到 8192,并进一步提高知识、代码、数学和科学等高质量数据的占比,总规模约为 500B token。

监督微调(SFT):研究团队在超过 8000 万个样本的开放许可指令微调数据上,对 MobileMoE-Base 进行了微调。

量化感知训练:研究团队将线性层和 embedding 量化到 INT4,将激活动态量化到 INT8,router 则保留 FP32 精度。

图|MobileMoE 的四阶段训练。

实验结果

消融实验结果

研究团队先比较了三个架构变量:专家数量 E、专家粒度 g,以及是否加入共享专家

图|专家数量 E 的缩放。

固定内存预算下,当内存高于约 0.25GB 时,MoE 的损失开始低于对应的稠密模型。继续增加专家数量 E,损失则会进一步下降,但当 E 增加到 8 后,边际收益已经明显减弱。对专家粒度 g 的实验则表明,更细粒度的专家配置整体更优,其中 g=8 在效果和训练开销之间取得了较好的平衡;当 g 从 8 增加到 16 时,损失改善不足 0.01,但训练时长增加约 50%。在相同计算预算下,加入共享专家后模型损失进一步下降。

基于消融实验结果,研究团队最终采用了 E=8、g=8、带共享专家的配置,即 60 个细粒度路由专家、Top-4 路由和 1 个共享专家,并将这套结构用于 MobileMoE-S/M/L 三个版本。

图|在计算最优条件下对 MoE 模型进行缩放。

图|MoE 架构的训练效率。

14 项基础评测:建立新的端侧帕累托前沿

研究团队在常识推理、知识、科学、阅读和推理五类共 14 项基础评测中,将 MobileMoE 与 Gemma 3、SmolLM2、Qwen3.5、OLMo 2、OLMoE-1B-7B 等模型放在统一设置下重新评测。

图|MobileMoE 的预训练轨迹。

Base 模型对比结果显示,MobileMoE-M 的平均分高于 Qwen3.5 2B,MobileMoE-L 的平均分高于 OLMoE-1B-7B,所需模型规模也更小;研究团队还提到,MobileMoE-L 的 Base 版本平均分已经高于 OLMoE-1B-7B 的 Instruct 版本。在训练规模上,MobileMoE 使用约 6T 预训练 token,少于 Llama 3.2 1B 的 9T 和 SmolLM2 1.7B 的 11T。在指令微调模型的整体比较中,MobileMoE-M 的平均准确率已经接近 OLMoE-1B-7B,但活跃参数和总参数都少约 60%

图|MobileMoE-Base 模型对比。

高级评测:代码与数学任务优势更明显

在指令微调后的高级评测中,MobileMoE 在代码和数学任务上表现更突出。以 MobileMoE-L 为例,它在代码和数学两类评测中的平均分都高于 Qwen3.5 2B 和 OLMoE- 1B-7B。不过,研究团队也提到,在指令跟随和知识推理两类能力上,Qwen3.5 2B 仍然更强

图|高级基准测试上的 Instruct 模型对比。

量化与端侧部署:INT4 后仍保持竞争力,手机端明显提速

量化后,MobileMoE-S/M/L 的整体平均分相比各自的 BF16 版本有所下降,但降幅大致在 2 到 3 分之间。即便如此,MobileMoE-L 的 INT4 版本表现仍高于 OLMoE-1B-7B Instruct 的 BF16 版本。

研究团队还将 MobileMoE 部署到 Samsung Galaxy S25 和 iPhone 16 Pro 上进行测试。结果显示,在可比的 INT4 权重内存条件下,MobileMoE-S 相比 MobileLLM-Pro,输入阶段提速 1.8-3.8 倍,逐 token 生成阶段提速 2.2-3.4 倍

内存占用方面,在 Samsung Galaxy S25、8K 上下文和真实 prompt 条件下,MobileMoE-S 的峰值 RSS 为 1.49GB,低于 MobileLLM-Pro 的 1.91GB。

图|端侧运行时延迟。

不足与未来方向

目前,在更高阶的指令遵循以及知识与推理能力上,指令微调后的 MobileMoE 仍落后于 Qwen3.5 2B。研究团队认为,这一差距可能与更完善的后训练有关。未来,若要缩小这一差距,训练侧需要加强蒸馏、面向推理的后训练,以及多模态扩展

此外,研究团队指出,MoE 在手机上的内存占用会随输入内容变化。与固定模板输入相比,真实输入通常会带来更高的内存占用。若仅基于模板化输入进行测试,可能会低估实际部署场景中的内存压力。未来,如果要更准确评估端侧 MoE 的真实内存表现,仍需要基于更多的真实实测数据

与此同时,研究团队已经在 CPU 和 GPU 后端完成了系统性的真机测试,但 NPU 路线仍有待探索。同时,MoE 的运行时内存占用对输入内容比较敏感。未来,动态路由、专家剪枝、混合精度量化以及移动端 NPU 部署,都是后续继续提升端侧效率的方向。

更多技术细节,详见原论文。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:夏千斯

相关问答

QMeta团队提出的MobileMoE模型在智能手机端侧部署的主要优势是什么?

AMobileMoE首次在商用智能手机上实现了高效的MoE推理。相比同级别稠密模型,它在内存相近的情况下,仅需1/2到1/4的推理计算量,即可实现持平甚至更高的平均准确率。在iPhone 16 Pro的GPU/MLX后端上,其输入阶段最高可提速3.8倍,显著降低了移动端运行大模型的开销。

QMobileMoE模型的设计核心是什么?其训练分为哪几个阶段?

AMobileMoE是一类面向端侧部署设计的MoE语言模型,其核心是用MoE层(包含一个共享专家和多个由路由器选择的专家)替换了传统Transformer中的稠密前馈层。其训练分为四个阶段:1. 在大规模数据上进行预训练;2. 扩展上下文长度并增加高质量数据的中期训练;3. 基于指令数据的监督微调(SFT);4. 为端侧部署准备的量化感知训练(INT4/INT8)。

Q根据消融实验,MobileMoE最终采用的专家配置是什么?

A基于消融实验结果,研究团队最终确定了MobileMoE-S/M/L三个版本的统一配置:设置专家总数E=8,专家粒度g=8(即每个专家为一个细粒度的小型前馈网络),并包含一个共享专家。具体来说,该配置包含60个细粒度路由专家,采用Top-4路由策略(每个Token激活4个专家)和1个始终参与的共享专家。

Q在高级评测中,MobileMoE在哪些任务上表现突出,在哪些方面仍存不足?

A在高级评测中,经过指令微调的MobileMoE在代码和数学任务上表现突出,其得分优于Qwen3.5 2B和OLMoE-1B-7B等对比模型。然而,在指令遵循能力和知识推理任务上,目前仍落后于Qwen3.5 2B。研究团队认为,这与后者进行了更完善的后训练有关。

QMobileMoE在智能手机上实际部署时,在性能和内存方面取得了怎样的实测结果?

A在智能手机真机部署实测中,MobileMoE-S在iPhone 16 Pro上,输入阶段最高提速3.8倍,逐token生成阶段最高提速3.4倍。在内存方面,于三星Galaxy S25上、8K上下文和真实提示词条件下,其峰值RSS内存占用为1.49GB,低于对比模型MobileLLM-Pro的1.91GB。此外,其INT4量化版本在精度损失较小的情况下,性能仍保持竞争力。

你可能也喜欢

从“卖云”到“卖Token”:运营商全面加入AI战场

文章探讨了运营商在AI时代从传统“卖云”和“卖流量”向“卖Token”(词元)的战略转型。中国电信、中国移动和中国联通相继推出了面向个人、家庭和企业的Token套餐,将Token确立为继语音、短信、流量之后的第四大基础通信服务计量单位。这标志着运营商正试图将自己重塑为AI时代的“国家电网”或“总集成商”,提供集成了模型、算力、应用、统一计费和安全合规的端到端AI服务。 其转型背后有双重动因:外部面临互联网云厂商在AI云市场的份额挤压和Token套餐化竞争;内部则因传统通信业务增长放缓,亟需将增长点转向算力、模型等智能业务。为此,运营商构建了包含模型层、算力层、应用层、计费层和安全层的“五层脚手架”,聚合外部模型与自研模型,调度异构算力网络,开发行业智能体,并利用其成熟的计费系统将复杂资源打包为简单套餐。 文章认为,Token套餐的价值在于将AI能力转化为可计量、可结算、易购买的标准化服务,降低了企业使用门槛。如果运营商能成功将“AI接入”打造成电信级服务,AI有望成为像水电一样可便捷采购的生产要素。但挑战依然存在,包括模型效果、成本控制及客户长期付费意愿等。最终竞争关键不在于谁先推出套餐,而在于能否提供稳定、可信、可规模运营的AI基础设施服务。

marsbit53分钟前

从“卖云”到“卖Token”:运营商全面加入AI战场

marsbit53分钟前

交易

现货
合约
活动图片