手机上跑MoE？Meta提出MobileMoE，iPhone 16 Pro提速3.8倍

marsbit发布于2026-06-01更新于2026-06-01

文章摘要

Meta团队提出MobileMoE，首次在商用智能手机上实现了高效的混合专家模型（MoE）推理。该模型面向端侧设计，采用MoE层替代传统稠密前馈层，通过路由机制为每个token选择少数专家进行计算，并包含共享专家。MobileMoE-S/M版本在内存相近的情况下，仅需稠密基线1/2到1/4的计算量，在14项基础评测中达到持平或更高的平均准确率，为端侧大语言模型建立了新的帕累托前沿。在iPhone 16 Pro的实测中，MobileMoE-S在输入阶段最高提速3.8倍，逐token生成阶段提速2.2-3.4倍，且峰值内存占用低于对比模型。量化至INT4后性能降幅较小，仍保持竞争力。研究同时探讨了专家数量、粒度及共享专家等架构选择，确定了E=8、g=8、带共享专家的优化配置。尽管MobileMoE在代码和数学任务上表现突出，但在高阶指令遵循与知识推理上仍落后于Qwen3.5 2B。未来需通过蒸馏、后训练及多模态扩展进一步提升，并探索NPU部署、动态路由等方向以优化端侧效率。

近年来,混合专家模型(MoE)已广泛用于云端大模型。但在手机端,大语言模型(LLM)仍以稠密架构为主。过去,手机设备对内存、算力和时延的约束更严苛,子十亿活跃参数范围内的端侧 MoE 一直缺少系统研究。如今,随着移动设备 DRAM 容量提升,MoE 也开始有机会部署到智能手机上。

Meta 团队提出的 MobileMoE,首次在商用智能手机上实现了高效的 MoE 推理。结果显示,在 14 个基础测试中,MobileMoE-S/M 在内存相近的情况下,仅用稠密基线 1/2 到 1/4 的推理计算量,就做到了持平甚至更高的平均准确率。实测中,MobileMoE-S 在 iPhone 16 Pro 的 GPU/MLX 后端提速最明显,输入阶段最高可提速 3.8 倍。

论文链接:https://arxiv.org/abs/2605.27358

研究团队还提出了一套端侧 MoE 缩放规律,用于确定更适合手机部署的模型结构。MobileMoE 并为端侧大语言模型建立了新的帕累托前沿,在精度与推理计算开销的权衡上取得了更优结果。

图|MobileMoE 为端侧大语言模型建立了新的帕累托前沿。

MobileMoE是如何设计的?

MobileMoE 可以这样理解:它是一类面向端侧部署设计的MoE 语言模型。整体仍是decoder-only Transformer,但把原来的稠密前馈层换成了 MoE 层。路由器会为每个 token 选出得分最高的少数专家参与计算,同时还有一个共享专家始终参与计算。整个训练流程分为四步:预训练、中期训练、监督微调和量化感知训练。

预训练:研究团队在 2048 的上下文长度下,使用约 6T token 的开放许可数据进行预训练,数据整体以 Web 为主,同时覆盖数学、代码、知识和科学等领域。

中期训练:研究团队将上下文长度扩展到 8192,并进一步提高知识、代码、数学和科学等高质量数据的占比,总规模约为 500B token。

监督微调(SFT):研究团队在超过 8000 万个样本的开放许可指令微调数据上,对 MobileMoE-Base 进行了微调。

量化感知训练:研究团队将线性层和 embedding 量化到 INT4,将激活动态量化到 INT8,router 则保留 FP32 精度。

图|MobileMoE 的四阶段训练。

实验结果

消融实验结果

研究团队先比较了三个架构变量:专家数量 E、专家粒度 g,以及是否加入共享专家。

图|专家数量 E 的缩放。

在固定内存预算下,当内存高于约 0.25GB 时,MoE 的损失开始低于对应的稠密模型。继续增加专家数量 E,损失则会进一步下降,但当 E 增加到 8 后,边际收益已经明显减弱。对专家粒度 g 的实验则表明,更细粒度的专家配置整体更优,其中 g=8 在效果和训练开销之间取得了较好的平衡;当 g 从 8 增加到 16 时,损失改善不足 0.01,但训练时长增加约 50%。在相同计算预算下,加入共享专家后模型损失进一步下降。

基于消融实验结果,研究团队最终采用了 E=8、g=8、带共享专家的配置,即 60 个细粒度路由专家、Top-4 路由和 1 个共享专家,并将这套结构用于 MobileMoE-S/M/L 三个版本。

图|在计算最优条件下对 MoE 模型进行缩放。

图|MoE 架构的训练效率。

14 项基础评测:建立新的端侧帕累托前沿

研究团队在常识推理、知识、科学、阅读和推理五类共 14 项基础评测中,将 MobileMoE 与 Gemma 3、SmolLM2、Qwen3.5、OLMo 2、OLMoE-1B-7B 等模型放在统一设置下重新评测。

图|MobileMoE 的预训练轨迹。

Base 模型对比结果显示,MobileMoE-M 的平均分高于 Qwen3.5 2B,MobileMoE-L 的平均分高于 OLMoE-1B-7B,所需模型规模也更小;研究团队还提到,MobileMoE-L 的 Base 版本平均分已经高于 OLMoE-1B-7B 的 Instruct 版本。在训练规模上,MobileMoE 使用约 6T 预训练 token,少于 Llama 3.2 1B 的 9T 和 SmolLM2 1.7B 的 11T。在指令微调模型的整体比较中,MobileMoE-M 的平均准确率已经接近 OLMoE-1B-7B,但活跃参数和总参数都少约 60%。

图|MobileMoE-Base 模型对比。

高级评测:代码与数学任务优势更明显

在指令微调后的高级评测中,MobileMoE 在代码和数学任务上表现更突出。以 MobileMoE-L 为例,它在代码和数学两类评测中的平均分都高于 Qwen3.5 2B 和 OLMoE- 1B-7B。不过,研究团队也提到,在指令跟随和知识推理两类能力上,Qwen3.5 2B 仍然更强。

图|高级基准测试上的 Instruct 模型对比。

量化与端侧部署:INT4 后仍保持竞争力,手机端明显提速

量化后,MobileMoE-S/M/L 的整体平均分相比各自的 BF16 版本有所下降,但降幅大致在 2 到 3 分之间。即便如此,MobileMoE-L 的 INT4 版本表现仍高于 OLMoE-1B-7B Instruct 的 BF16 版本。

研究团队还将 MobileMoE 部署到 Samsung Galaxy S25 和 iPhone 16 Pro 上进行测试。结果显示,在可比的 INT4 权重内存条件下,MobileMoE-S 相比 MobileLLM-Pro,输入阶段提速 1.8-3.8 倍,逐 token 生成阶段提速 2.2-3.4 倍。

内存占用方面,在 Samsung Galaxy S25、8K 上下文和真实 prompt 条件下,MobileMoE-S 的峰值 RSS 为 1.49GB,低于 MobileLLM-Pro 的 1.91GB。

图|端侧运行时延迟。

不足与未来方向

目前,在更高阶的指令遵循以及知识与推理能力上,指令微调后的 MobileMoE 仍落后于 Qwen3.5 2B。研究团队认为,这一差距可能与更完善的后训练有关。未来,若要缩小这一差距,训练侧需要加强蒸馏、面向推理的后训练,以及多模态扩展。

此外,研究团队指出,MoE 在手机上的内存占用会随输入内容变化。与固定模板输入相比,真实输入通常会带来更高的内存占用。若仅基于模板化输入进行测试,可能会低估实际部署场景中的内存压力。未来,如果要更准确评估端侧 MoE 的真实内存表现,仍需要基于更多的真实实测数据。

与此同时,研究团队已经在 CPU 和 GPU 后端完成了系统性的真机测试,但 NPU 路线仍有待探索。同时,MoE 的运行时内存占用对输入内容比较敏感。未来,动态路由、专家剪枝、混合精度量化以及移动端 NPU 部署,都是后续继续提升端侧效率的方向。

更多技术细节,详见原论文。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:夏千斯

你可能也喜欢

交易反思：为什么炒币越久越难受？其实你的大脑已经被压力“搞坏”了

交易反思：为什么炒币越久越难受？其实你的大脑已经被压力“搞坏”了作者指出，交易到最后比拼的并非智力，而是神经系统的生存能力。交易者的个人背景、财务状况和心理状态都会深刻影响其决策，而交易心理学却常被忽视。许多人在亏损时承受着巨大的精神压力，包括失眠、情绪崩溃和绝望感。交易起初源于改变人生的希望，但很快会进入一个恶性循环：小幅盈亏、犯错、错失机会，进而产生对错失的恐惧。这种恐惧转化为冲动交易、频繁操作和耐心丧失，最终导致持续亏损。当亏损达到一定程度，交易就演变成一场心理求生战。关键在于，交易在很大程度上是生理化学反应。持续的高压状态会导致皮质醇水平长期升高，使大脑处于“生存模式”，进而损害睡眠、引发情绪化决策、消磨耐心。多巴胺偶尔带来的盈利快感，会让大脑将痛苦与奖赏错误关联，使交易者沉迷其中无法自拔。最终，交易者可能对亏损麻木，将焦虑内化为性格，交易目的从盈利扭曲为寻求刺激或自我安慰。此时，交易已沦为一种成瘾行为。文章强调，有时最强大的举措是暂停交易，给自己足够时间反思：是热爱交易，还是被困在由压力和多巴胺构筑的牢笼里？市场永远存在新机会，但若在追逐中耗尽心力，当真正机会来临时已无力参与。顶尖交易者未必最聪明，而是那些能在精神上持久坚持的人。真正的顿悟或许是：你所追逐的并非金钱，而是内心的解脱。

marsbit18分钟前

给宇树甩了两张工牌

英伟达在台北发布了人形机器人Isaac GR00T参考设计，由宇树科技提供身体、Sharpa提供灵巧手、英伟达提供Jetson Thor芯片及全套软件栈。这套“交钥匙”方案旨在服务高校及研究人员，可将实验准备时间从几天缩短到几小时，其合成数据生成能力极强。同日，宇树科技A股首发过会，估值420亿，但其募资的最大投向是自研具身大模型（大脑）。文章指出，英伟达的参考设计模式与当年高通在手机行业的“交钥匙”方案类似，可能通过开源模型和软件来锁定其硬件生态，从而掌握行业规则制定权，将利润集中于“大脑”环节。宇树科技虽为参考设计供应身体，却同时大力投资自研大脑，并已在其G1机器人上同时运行英伟达GR00T、自研UnifoLM及第三方中科第五纪模型，这被视作一场“穿着合作外衣的独立战争”。目前，仅特斯拉凭借其FSD数据飞轮、自研芯片和超级制造体系，在机器人领域实现了完全脱离英伟达的闭环。文章认为，机器人的身体（运动控制、灵巧操作等）目前仍有较高的技术门槛和差异化空间，未像手机硬件那样完全同质化。宇树押注自研大脑，是在与时间赛跑，窗口期可能只有两三年。若其自研大脑成功，则能掌握主动权；若失败，则可能面临被标准化方案锁定在低利润“身体制造商”位置的风险。

marsbit22分钟前

marsbit22分钟前

EDGE币价闪崩 77%：外部操纵，还是内部剧本？

6月2日凌晨，edgeX原生代币EDGE价格在短时间内从约1.14美元暴跌超77%，最低至0.32美元，随后反弹至0.64美元附近。edgeX官方回应称，此次异动并非黑客攻击或安全漏洞，疑似为外部特定主体的市场操纵行为，并强调核心合约运行正常。链上侦探ZachXBT指出，EDGE供应长期由少数内部人控制，流通量低，呼吁提升透明度。社区用户则对团队诚信表示失望，并将其与项目过往的空投争议关联。2026年4月，edgeX曾因空投分配不透明引发社区不满，实际分配给普通交易者的代币比例远低于承诺，大量份额流向合作伙伴钱包。此次暴跌被部分观点视为“低流通、高控盘、不透明做市”模式的结构性风险体现。尽管协议在交易量和费用收入上表现尚可，但持续的透明度问题与筹码集中风险使项目面临考验。与此同时，关于EDGE价格的预测市场已在Polymarket上线。

marsbit23分钟前

marsbit23分钟前

Variant：三种 L1 资产极有可能成为主要价值储存方式

在Variant，我们认为第一层区块链（L1）资产可以作为价值储存手段进行评估。一个好的价值储存资产应具备以下关键要素：技术耐久性、稀缺性、抗审查性、经济生产力、模因认知（社会共识）以及流动性。目前，有三种L1资产脱颖而出，极有可能成为主要的价值储存方式： 1. **比特币**：在“数字黄金”的模因认知中占据主导地位，其社会共识的强大反身性是关键优势。 2. **以太坊**：在技术持久性和适应性方面表现突出，其可升级的路线图有助于应对未来挑战。 3. **ZCash**：在抗审查性和隐私保护方面卓越，为个人资产提供了长期保护的选择。价值储存市场的总规模巨大（例如黄金市值约31万亿美元），而数字资产在其中占比仍很小。因此，比特币、以太坊和ZCash等L1资产在这一领域拥有巨大的增长潜力和机遇。

链捕手1小时前

链捕手1小时前

Sui 揭示重大网络升级后导致三次主网中断的原因

Sui主网在5月28日进行1.72版本重大网络升级后，于28日和29日连续遭遇了三次中断。根据Sui基金会的事后分析，问题根源在于此次升级引入的新功能“地址余额”与现有的Gas收费逻辑在交互时产生了极端情况，以及验证节点重启逻辑中存在一个隐藏漏洞。前两次中断均由同一个原因导致：当一笔同时使用地址余额和代币对象支付Gas的交易因余额不足被取消后，在后续的“Gas合并”过程中，系统仍会尝试从该余额中扣款，最终导致结算时出现下溢错误。网络在28日采用了一个临时修复方案后恢复，但由于该补丁存在缺陷，29日上午触发了第二次中断。第三次中断的原因则不同。在验证节点陆续重启后，参与下一周期随机数生成的节点数量不足，导致该功能被禁用。但这一“禁用状态”未被正确保存到磁盘。当验证节点再次重启时，它们“忘记”了随机数生成已失败，致使一个依赖于此的队列被卡住，整个网络的周期切换流程无法完成。修复方法是持久化保存随机数生成状态，并增加了允许验证节点在协调一致后强制关闭卡住周期的机制。 Sui基金会强调，在整个事件中，用户资金未面临风险，网络恢复后也未回滚任何已确认的交易。所有已知问题现已得到解决，网络活动已恢复正常。此次事件暴露出Sui在周期切换的鲁棒性以及Gas收费逻辑的严谨性方面仍需加强。

bitcoinist1小时前

bitcoinist1小时前

交易

现货

合约

手机上跑MoE？Meta提出MobileMoE，iPhone 16 Pro提速3.8倍

文章摘要

MobileMoE是如何设计的?

实验结果

消融实验结果

14 项基础评测:建立新的端侧帕累托前沿

高级评测:代码与数学任务优势更明显

量化与端侧部署:INT4 后仍保持竞争力,手机端明显提速

不足与未来方向

相关问答

你可能也喜欢

交易反思：为什么炒币越久越难受？其实你的大脑已经被压力“搞坏”了

给宇树甩了两张工牌

EDGE币价闪崩 77%：外部操纵，还是内部剧本？

Variant：三种 L1 资产极有可能成为主要价值储存方式

Sui 揭示重大网络升级后导致三次主网中断的原因

交易

热门分类

热门标签