手机上跑MoE？Meta提出MobileMoE，iPhone 16 Pro提速3.8倍

marsbit发布于2026-06-01更新于2026-06-01

文章摘要

Meta团队提出MobileMoE，首次在商用智能手机上实现了高效的混合专家模型（MoE）推理。该模型面向端侧设计，采用MoE层替代传统稠密前馈层，通过路由机制为每个token选择少数专家进行计算，并包含共享专家。MobileMoE-S/M版本在内存相近的情况下，仅需稠密基线1/2到1/4的计算量，在14项基础评测中达到持平或更高的平均准确率，为端侧大语言模型建立了新的帕累托前沿。在iPhone 16 Pro的实测中，MobileMoE-S在输入阶段最高提速3.8倍，逐token生成阶段提速2.2-3.4倍，且峰值内存占用低于对比模型。量化至INT4后性能降幅较小，仍保持竞争力。研究同时探讨了专家数量、粒度及共享专家等架构选择，确定了E=8、g=8、带共享专家的优化配置。尽管MobileMoE在代码和数学任务上表现突出，但在高阶指令遵循与知识推理上仍落后于Qwen3.5 2B。未来需通过蒸馏、后训练及多模态扩展进一步提升，并探索NPU部署、动态路由等方向以优化端侧效率。

近年来,混合专家模型(MoE)已广泛用于云端大模型。但在手机端,大语言模型(LLM)仍以稠密架构为主。过去,手机设备对内存、算力和时延的约束更严苛,子十亿活跃参数范围内的端侧 MoE 一直缺少系统研究。如今,随着移动设备 DRAM 容量提升,MoE 也开始有机会部署到智能手机上。

Meta 团队提出的 MobileMoE,首次在商用智能手机上实现了高效的 MoE 推理。结果显示,在 14 个基础测试中,MobileMoE-S/M 在内存相近的情况下,仅用稠密基线 1/2 到 1/4 的推理计算量,就做到了持平甚至更高的平均准确率。实测中,MobileMoE-S 在 iPhone 16 Pro 的 GPU/MLX 后端提速最明显,输入阶段最高可提速 3.8 倍。

论文链接:https://arxiv.org/abs/2605.27358

研究团队还提出了一套端侧 MoE 缩放规律,用于确定更适合手机部署的模型结构。MobileMoE 并为端侧大语言模型建立了新的帕累托前沿,在精度与推理计算开销的权衡上取得了更优结果。

图|MobileMoE 为端侧大语言模型建立了新的帕累托前沿。

MobileMoE是如何设计的?

MobileMoE 可以这样理解:它是一类面向端侧部署设计的MoE 语言模型。整体仍是decoder-only Transformer,但把原来的稠密前馈层换成了 MoE 层。路由器会为每个 token 选出得分最高的少数专家参与计算,同时还有一个共享专家始终参与计算。整个训练流程分为四步:预训练、中期训练、监督微调和量化感知训练。

预训练:研究团队在 2048 的上下文长度下,使用约 6T token 的开放许可数据进行预训练,数据整体以 Web 为主,同时覆盖数学、代码、知识和科学等领域。

中期训练:研究团队将上下文长度扩展到 8192,并进一步提高知识、代码、数学和科学等高质量数据的占比,总规模约为 500B token。

监督微调(SFT):研究团队在超过 8000 万个样本的开放许可指令微调数据上,对 MobileMoE-Base 进行了微调。

量化感知训练:研究团队将线性层和 embedding 量化到 INT4,将激活动态量化到 INT8,router 则保留 FP32 精度。

图|MobileMoE 的四阶段训练。

实验结果

消融实验结果

研究团队先比较了三个架构变量:专家数量 E、专家粒度 g,以及是否加入共享专家。

图|专家数量 E 的缩放。

在固定内存预算下,当内存高于约 0.25GB 时,MoE 的损失开始低于对应的稠密模型。继续增加专家数量 E,损失则会进一步下降,但当 E 增加到 8 后,边际收益已经明显减弱。对专家粒度 g 的实验则表明,更细粒度的专家配置整体更优,其中 g=8 在效果和训练开销之间取得了较好的平衡;当 g 从 8 增加到 16 时,损失改善不足 0.01,但训练时长增加约 50%。在相同计算预算下,加入共享专家后模型损失进一步下降。

基于消融实验结果,研究团队最终采用了 E=8、g=8、带共享专家的配置,即 60 个细粒度路由专家、Top-4 路由和 1 个共享专家,并将这套结构用于 MobileMoE-S/M/L 三个版本。

图|在计算最优条件下对 MoE 模型进行缩放。

图|MoE 架构的训练效率。

14 项基础评测:建立新的端侧帕累托前沿

研究团队在常识推理、知识、科学、阅读和推理五类共 14 项基础评测中,将 MobileMoE 与 Gemma 3、SmolLM2、Qwen3.5、OLMo 2、OLMoE-1B-7B 等模型放在统一设置下重新评测。

图|MobileMoE 的预训练轨迹。

Base 模型对比结果显示,MobileMoE-M 的平均分高于 Qwen3.5 2B,MobileMoE-L 的平均分高于 OLMoE-1B-7B,所需模型规模也更小;研究团队还提到,MobileMoE-L 的 Base 版本平均分已经高于 OLMoE-1B-7B 的 Instruct 版本。在训练规模上,MobileMoE 使用约 6T 预训练 token,少于 Llama 3.2 1B 的 9T 和 SmolLM2 1.7B 的 11T。在指令微调模型的整体比较中,MobileMoE-M 的平均准确率已经接近 OLMoE-1B-7B,但活跃参数和总参数都少约 60%。

图|MobileMoE-Base 模型对比。

高级评测:代码与数学任务优势更明显

在指令微调后的高级评测中,MobileMoE 在代码和数学任务上表现更突出。以 MobileMoE-L 为例,它在代码和数学两类评测中的平均分都高于 Qwen3.5 2B 和 OLMoE- 1B-7B。不过,研究团队也提到,在指令跟随和知识推理两类能力上,Qwen3.5 2B 仍然更强。

图|高级基准测试上的 Instruct 模型对比。

量化与端侧部署:INT4 后仍保持竞争力,手机端明显提速

量化后,MobileMoE-S/M/L 的整体平均分相比各自的 BF16 版本有所下降,但降幅大致在 2 到 3 分之间。即便如此,MobileMoE-L 的 INT4 版本表现仍高于 OLMoE-1B-7B Instruct 的 BF16 版本。

研究团队还将 MobileMoE 部署到 Samsung Galaxy S25 和 iPhone 16 Pro 上进行测试。结果显示,在可比的 INT4 权重内存条件下,MobileMoE-S 相比 MobileLLM-Pro,输入阶段提速 1.8-3.8 倍,逐 token 生成阶段提速 2.2-3.4 倍。

内存占用方面,在 Samsung Galaxy S25、8K 上下文和真实 prompt 条件下,MobileMoE-S 的峰值 RSS 为 1.49GB,低于 MobileLLM-Pro 的 1.91GB。

图|端侧运行时延迟。

不足与未来方向

目前,在更高阶的指令遵循以及知识与推理能力上,指令微调后的 MobileMoE 仍落后于 Qwen3.5 2B。研究团队认为,这一差距可能与更完善的后训练有关。未来,若要缩小这一差距,训练侧需要加强蒸馏、面向推理的后训练,以及多模态扩展。

此外,研究团队指出,MoE 在手机上的内存占用会随输入内容变化。与固定模板输入相比,真实输入通常会带来更高的内存占用。若仅基于模板化输入进行测试,可能会低估实际部署场景中的内存压力。未来,如果要更准确评估端侧 MoE 的真实内存表现,仍需要基于更多的真实实测数据。

与此同时,研究团队已经在 CPU 和 GPU 后端完成了系统性的真机测试,但 NPU 路线仍有待探索。同时,MoE 的运行时内存占用对输入内容比较敏感。未来,动态路由、专家剪枝、混合精度量化以及移动端 NPU 部署,都是后续继续提升端侧效率的方向。

更多技术细节,详见原论文。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:夏千斯

你可能也喜欢

连续三季下跌后，加密市场第三季度能否迎来企稳窗口？

加密市场在连续两季下跌后，第二季度表现疲软，总市值缩水12.6%至2.1万亿美元，日均交易量下滑，稳定币规模也出现三年来首次收缩。比特币和以太坊价格均创阶段新低，与美股的传统联动逻辑瓦解，主要受现货ETF资金持续流出、美联储政策预期以及企业抛售等因素影响。市场关注焦点高度集中于美联储7月底的议息会议结果，其政策信号将直接影响比特币能否企稳。同时，关键监管法案《CLARITY Act》在国会推进停滞，不确定性持续压制市场风险偏好。尽管整体低迷，少数板块显现增长：预测市场交易量同比大幅上升，代币化收藏品和现实世界资产（RWA）代币化领域也逆势扩张，显示出结构性需求转变。综合来看，市场虽缺乏全面上涨动力，但极端下跌的基础较弱。比特币价格贴近长期均线，交易逻辑已从叙事炒作转向对宏观政策、利率和价格的理性博弈。第三季度能否企稳，将主要取决于美联储政策动向与监管立法的进展。

marsbit3小时前

marsbit3小时前

SpaceX交易权限现已开放：WEEX上线SPCXON交易对

2026年6月，SpaceX完成了史上最大规模的IPO，但大量投资者因券商限制、开户障碍和地域壁垒而无法参与。加密货币交易所WEEX推出了解决方案SPCXON/USDT现货交易对。SPCXON是一种基于Ondo代币化股票框架构建的产品，旨在为美国以外的合格交易者提供追踪SpaceX经济收益的途径，以USDT结算，交易便捷，无传统券商门槛。 SpaceX IPO定价为135美元，首日收盘接近161美元，随后一度冲高至225美元，公司估值约1.75万亿美元。看涨理由基于星链收入增长、无可匹敌的发射频率以及星舰里程碑。看跌观点则认为，其估值已达营收的90-110倍，且存在流通股稀少和即将到来的内部持股解锁等风险。需注意，SPCXON提供的是价格敞口，而非股票所有权，不包含投票权和直接股息。其价格可能相对净资产价值出现溢价或折价，交易者需关注价差。 WEEX平台整合了包括SpaceX、MicroStrategy和Micron在内的多种代币化股权产品，用户可在统一账户内交易加密货币和股权敞口。平台还提供高达400倍杠杆的加密货币期货交易。 WEEX成立于2018年，全球用户超过620万，提供超过1200个现货交易对，并设有1000 BTC保护基金。平台亦提供跟单交易和AI工具等功能。免责声明：本文内容不构成投资建议。

TheNewsCrypto3小时前

TheNewsCrypto3小时前

BIT交易时刻：BTC仍受压于周线200 EMA，被拒后或将重启下跌，昨夜大涨的存储和半导体夜盘开跌

比特币价格维持在66000美元附近，反弹超15%，但正面临68000美元附近的强阻力区，该位置存在大量套牢盘。技术面关注周线200MA（约63333美元）和200EMA（约68328美元）关键位，需突破68000美元或跌破55000美元才能确认方向。市场整体流动性偏低，反弹性质偏谨慎。美股方面，三大股指期货下跌，昨夜暴涨的半导体和存储板块在夜盘普遍回落。超微电脑（SMCI）因订单强劲而逆势大涨。市场关注AI硬件需求是否持续，但原油价格上涨和美债收益率走高带来通胀和利率担忧，给股市施加压力。亚洲市场跟随科技股反弹，但走势不稳。韩国股市冲高回落，半导体股波动；日本股市收跌，日元汇率创多年新低，干预风险值得警惕。接下来需重点关注：AMD的AI活动、谷歌及特斯拉等科技巨头的财报、欧洲央行利率决议以及英特尔财报，这些事件可能影响市场对AI叙事、经济前景和半导体板块的判断。

marsbit3小时前

BIT交易时刻：BTC仍受压于周线200 EMA，被拒后或将重启下跌，昨夜大涨的存储和半导体夜盘开跌

marsbit3小时前

前CFTC主席、Circle总裁Tarbert：一边劝你长期主义，一边自己套现3000万美元

前CFTC主席、Circle总裁希思·塔伯特近期因言行不一引发争议。在公开场合，他多次强调Circle专注于长期发展，呼吁投资者对下跌的股价保持耐心。然而，自Circle上市以来，他持续抛售公司股票，累计套现约3000万美元，且从未增持。塔伯特在加入Circle前，曾于卸任CFTC主席仅27天后便加入做市商城堡证券，后又转至Circle，其职业生涯被指善于利用监管履历和人脉资源，在政商“旋转门”中为金融企业铺路。在城堡证券期间，他处理的业务与其先前监管职责存在潜在利益关联。分析认为，塔伯特精于把握政策与市场时机，将个人资源转化为职业筹码，但投资者却需承担其公开倡导“长期主义”背后的实际风险。

marsbit3小时前

前CFTC主席、Circle总裁Tarbert：一边劝你长期主义，一边自己套现3000万美元

marsbit3小时前

Gate 研究院：加密金融产品掀起“华尔街化”浪潮，是竞争还是融合？

2009年比特币的创世区块暗含对传统金融体系的批判，其理想是建立去中心化、去中介、去银行的点对点金融系统。然而十七年后，比特币现货ETF获批、贝莱德等巨头发行相关产品、CME推出受监管衍生品、RWA（真实世界资产）和代币化国债市场快速增长等现象，显示传统金融正系统性地介入加密资产的发行、定价、托管和分销环节，引发了加密市场是否“华尔街化”的讨论。文章认为，这并非单方面的吞并，而是加密体系与传统金融的双向融合与互补。加密领域提供无许可开放性、24小时交易和可编程结算，但缺乏合规通道、机构级托管和主流分销网络；传统金融则拥有牌照、信任、资金和渠道，但受限于交易时间、跨境门槛和结算效率。双方正朝彼此的核心优势靠拢。这种融合体现为两条路径：一是以Gate为代表的加密交易所，逐步从提供代币化美股、CFD差价合约，发展到接入真实股票、港股、韩股交易，成为连接加密账户与传统券商基础设施的前端入口；二是以Robinhood为代表的传统券商，通过收购加密交易所、推出股票代币和建设自有Layer 2，将加密资产和链上代币化产品整合进其平台。两者的共同目标是争夺下一代综合金融账户的入口，让用户在一个界面内交易多种资产。同时，RWA和链上国债作为资产层的融合正在加速。尽管规模尚小，但代币化国债等产品为链上提供了低波动收益资产，并吸引JP摩根、贝莱德等传统机构参与，测试未来资本市场的底层结算方式。最终，加密与华尔街并非谁征服谁，而是在共同塑造一个更高效、全球化的统一资本市场。用户未来或将在同一个账户中自由交易比特币、股票、ETF、链上国债等多种资产，体验无缝的跨资产配置。去中心化的理想仍在底层协议中延续，而在应用层，一个融合了双方优势的新金融形态正在形成。

marsbit3小时前

marsbit3小时前

交易

现货

手机上跑MoE？Meta提出MobileMoE，iPhone 16 Pro提速3.8倍

文章摘要

MobileMoE是如何设计的?

实验结果

消融实验结果

14 项基础评测:建立新的端侧帕累托前沿

高级评测:代码与数学任务优势更明显

量化与端侧部署:INT4 后仍保持竞争力,手机端明显提速

不足与未来方向

相关问答

你可能也喜欢

连续三季下跌后，加密市场第三季度能否迎来企稳窗口？

SpaceX交易权限现已开放：WEEX上线SPCXON交易对

BIT交易时刻：BTC仍受压于周线200 EMA，被拒后或将重启下跌，昨夜大涨的存储和半导体夜盘开跌

前CFTC主席、Circle总裁Tarbert：一边劝你长期主义，一边自己套现3000万美元

Gate 研究院：加密金融产品掀起“华尔街化”浪潮，是竞争还是融合？

交易

热门分类

热门标签