汪滔的第一款大模型，让Meta终于重新上桌了

marsbit发布于2026-04-09更新于2026-04-09

文章摘要

Meta于4月8日发布其Muse系列首款模型Spark，这是自去年夏天汪滔（Alexandr Wang）加入并组建“超级智能实验室（MSL）”后的首个重要成果。Spark定位为小巧快速的模型，专为Meta旗下产品（如WhatsApp、Instagram等）设计，支持多模态推理和“视觉思维链”功能，在医疗、科学推理及图表理解方面表现突出，但在编码和长任务处理上仍有不足。该模型发布后Meta股价单日一度上涨近9%，市场反应积极。Meta强调Spark只是起点，更大规模模型正在开发中，未来可能采用开源与闭源混合策略。

文 | 字母AI

从汪滔（Alexandr Wang）加入Meta算起，已经过去大约十个月了，世界眼瞅着就要从一个夏天走到另一个夏天，Meta的“牛油果”终于熟了。

当地时间4月8日，Meta官宣发布Muse系列的第一款模型Spark。这也是Meta吸纳汪滔并建立“超级智能实验室（MSL）”之后端上来的第一盘菜。

汪滔在X上连发数条消息介绍新模型，表示：“九个月前，我们从零开始重建了人工智能技术栈，包括全新的基础设施、架构和数据管道。Muse Spark 正是这项工作的成果。”

就连之前传闻与汪滔不和的Meta前首席科学家杨立昆（Yann LeCun）都赶来恭喜，气氛一片祥和。

Meta官方强调，Spark的设计初衷是“小巧快速”，用这样一个模型打头阵，而不是“憋大招”直接发布碾压态势的模型，Meta也清楚时间不等人。

目前来看这一招奏效了，Meta的股价在当日一度上涨约9%。

01 新模型Muse Spark

首先，让我们来看看Meta发了个什么模型。

新模型名叫Muse Spark，其中Muse是模型系列的名称。这个名字也挺有意思的，Muse即“缪斯”，Spark是“火花”。

Meta表示，Muse Spark是Meta迄今为止功能最强大的模型。它目前为Meta AI应用和网站提供支持，并将于未来几周内陆续登陆WhatsApp、Instagram、Facebook、Messenger和AI眼镜。Meta还将通过API向部分合作伙伴提供该模型的私有预览版。

很明显，Meta想要充分发挥自己的平台优势，明确表示Muse Spark是专为Meta的产品而打造的。

它将为Meta AI提供更智能、更快速的支持，并随着时间的推移解锁新功能，这些功能可以引用用户在Instagram、Facebook和Threads上分享的推荐内容和信息。

“我们正朝着个人超级智能的目标迈进：打造一款能够随时随地帮助任何人处理他们最关心之事的智能助手。”

Muse Spark的设计初衷是小巧快速，却足以应对科学、数学和健康领域的复杂问题，其核心是一个原生多模态推理模型。

与以往将视觉和文本“拼接”在一起的版本不同，Muse Spark从底层架构开始重建，将视觉信息整合到其内部逻辑中。这种架构转变实现了“视觉思维链”，使模型能够标注动态环境——例如识别复杂咖啡机的组件，或通过并排视频分析纠正用户的瑜伽姿势。

然而，最重要的技术飞跃是新增的“思考”模式。

Meta声称，该功能协调多个子智能体并行推理，使Meta能够与谷歌的Gemini Deep Think和OpenAI的GPT-5.4 Pro等极端推理模型相媲美。

单模型测试结果来看。

Meta的新模型Muse Spark在综合智能指数上表现亮眼。它在Artificial Analysis Intelligence Index（一个涵盖多维度基准的综合智能评分）上拿到了52分，位列全球第4名。排在前面的分别是Gemini 3.1 Pro和GPT-5.4（均为约57分），以及Claude Opus 4.6（约53分）。

相比去年Llama 4 Maverick的仅18分，这已经是巨大的进步，显示Meta在前沿模型上明显追赶了回来。

具体强项和弱项：

. PhD级科学推理（GPQA Diamond）：Muse Spark达到了89.5%的准确率，表现相当强劲，但仍略微落后于Gemini 3.1 Pro（94.3%）、GPT-5.4（92.8%）和Claude Opus 4.6（92.7%）。

. 图表与视觉理解（CharXiv Reasoning，在Contemplating模式下）：得分86.4，在这项多模态视觉推理任务上明显优于竞品——超过了Gemini 3.1 Pro（80.2）、GPT-5.4（82.8）和Claude Opus 4.6（65.3）。视觉理解和图表推理是Muse Spark的突出优势之一。

. 医疗硬推理（HealthBench Hard）：得分42.8%，大幅领先所有主要竞品，包括GPT-5.4（40.1%）、Gemini 3.1 Pro（20.6%）和Claude Opus 4.6（14.8%）。Meta表示，这得益于他们与超过1000名医生合作进行的针对性训练，医疗相关能力是它的亮点。

. 软件工程与编码（SWE-Bench Verified）：得分77.4%，落后于Claude Opus 4.6（80.8%）和Gemini 3.1 Pro（80.6%）。Meta自己也坦承，在长时程多步自主任务（agentic tasks）和复杂编码工作流上还有差距，需要继续投入。

. 多模态多学科理解（MMMU Pro）：得分约80.4–80.5%，仅次于Gemini 3.1 Pro（83.9%），在视觉多模态任务中排名第二。

总体来看，Muse Spark在视觉多模态推理、医疗领域和高效推理上表现突出，尤其适合Meta自己的社交、内容和健康生态；但在纯编码和长链条自主任务上仍有追赶空间。

02 推迟数次的“牛油果”

在X上，发生了一个有趣的小插曲。

作为Meta如今的AI掌舵手，汪滔（Alexandr Wang）在X上咣咣发布消息宣传新模型。

这个时候，有人指出，Meta给出的benchmark图表太混淆视听，“简直是犯罪”。在这张图表中，Muse Spark的分数排在第一列并且全部标成突出高亮色，乍一看，感觉是全面领先，但是细看便知其实有些分数是较低的。

在图表上玩花样，其实并不新鲜，OpenAI此前已经多次因此受到指责。

有意思的是，汪滔这次选择了立刻“滑跪”，回复该质疑：

“抱歉，我们并非有意暗示我们的得分最高。恰恰相反，大多数评估结果表明，我们的模型还有很多需要改进的地方。我们不会再犯同样的错误。”

不难看出，Meta也并非要让Muse Spark达到全面碾压之势，而是要回到AI的竞争行列当中。

从种种迹象来看，Muse系列应该就是Meta此前内部代号“牛油果（Avocado）”的项目。

牛油果已经跳票太久，Meta如今采取了“先小后大”的策略。Meta在官方博文中强调，Spark主打快速小巧，这只是个开始：

“我们的模型正在按预期发展。Muse Spark是我们发展历程中的一个早期数据点，我们正在开发更大规模的模型。”

这和AI行业（尤其是头部玩家）习惯于“炸场”“惊世骇俗”的节奏不同，但是Meta确实也没时间慢慢来了。

去年初，Meta发布Llama 4系列后，模型表现未达预期（尤其是Behemoth大模型性能提升不足），随后暂停了Llama系列的进一步开源研发。

到了去年夏天，Meta斥资143亿美元投资Scale AI（持股49%），并直接挖来Scale AI创始人兼CEO、28岁的汪滔（Alexandr Wang）担任首席AI官，正式成立Meta Superintelligence Labs（MSL）。

同时Meta展开疯狂挖角，从OpenAI、Google等公司高薪招募数十名顶尖研究员，部分offer达到数百万至上亿美元。

成本方面，Meta2025年全年AI相关资本支出达722.2亿美元；2026年1月财报指引显示，这一数字将大幅提升至1150亿—1350亿美元，几乎翻倍，主要用于MSL的模型训练和数据中心扩建。

过去这十个月的时间里，Meta以及扎克伯格、Meta的AI一把手汪滔身上，都压力山大。人们迫切地想看到汪滔加入、Meta重组之后，究竟会端上来一盘什么菜。

至少从市场的第一时间反馈来看，Meta放弃“憋大招”转而先上小菜的策略是奏效的，Meta股价当日一度大涨近9%，创下自今年1月以来最大单日涨幅。截至收盘，Meta收涨6.5%。

一个值得注意的信息是，过去外界一直认为“牛油果”将完全转向闭源，但Meta这次却没有把话说死。未来，Meta可能走开源与闭源并行的混合策略，将旗舰模型和独家技术保留在内部的同时保持新鲜模型对广泛开发者群体的开源可用性。

Meta总算把“牛油果”端上桌了，但这还远远不是终点。对汪滔和扎克伯格来说，Muse Spark更像是一声发令枪，未来如何，还要看“越来越强”的承诺能不能兑现。

你可能也喜欢

W3.io 与 Space and Time 携手推出可验证的AI金融基础设施

W3.io与Space and Time宣布合作推出可验证的AI金融基础设施，为商业金融操作提供端到端的可验证支持。当前每日处理超过20万笔操作。随着AI代理在供应商、支付和合规系统中加速决策，企业面临问责挑战。双方通过工作流执行和底层数据双重验证架构，确保操作全链路可追溯篡改。 W3平台帮助企业快速创建自动化金融流程，部署时间从数月缩短至一天；Space and Time则提供底层可验证数据层，共同形成从执行到结算的不可篡改证明链。合作已获Creatorland平台实践验证，日均处理20万笔支付与分账流程。企业需在审计中证明AI资金操作的合规性，此次合作正针对该需求。W3已整合Circle、Stripe等十余家支付服务商，Space and Time获微软M12风投支持，致力于连接现实数据与链上技术，推动DeFi及机构市场发展。

TheNewsCrypto1小时前

TheNewsCrypto1小时前

纽约总检察长起诉Coinbase和Gemini，指控其违反州法律

纽约总检察长起诉Coinbase和Gemini涉嫌违反州法律，指控这两家加密货币交易所未经纽约州博彩委员会许可非法运营预测市场。诉讼指出，这些预测市场的结果不受投注者控制或类似机会游戏，应被定性为非法赌博而非合法市场活动。此外，平台还允许18至20岁用户参与，违反纽约州21岁的最低体育博彩年龄限制。检察长要求法院责令两家公司退还非法利润、支付三倍赔偿金并实施用户年龄限制及营销管制。消息公布后，Coinbase股价下跌约10%，Gemini下跌约4%。

bitcoinist2小时前

bitcoinist2小时前

加密货币勒索事件波及霍尔木兹海峡，诈骗分子利用航运危机行骗

霍尔木兹海峡近期出现加密货币诈骗事件，犯罪团伙冒充伊朗安全部门向受困船只发送虚假信息，声称支付比特币或泰达币即可安排安全通行。海事风险公司Marisks警告称，这些要求实属欺诈，并非伊朗官方行为。诈骗者要求船东提交文件并支付加密货币“过路费”，利用地区冲突导致的航运停滞及船公司迫切心理实施勒索。此前有报道称伊朗曾考虑对经过的油轮收取比特币费用，诈骗团伙借此增加可信度。若企业支付此类费用，可能触犯美国及国际制裁法规，因向伊朗控制水域进行加密支付或被视作“物质支持”，面临法律风险。目前德黑兰方面未公开回应此事。

bitcoinist5小时前

bitcoinist5小时前

MIT研究员提出新路径使比特币具备抗量子计算能力

MIT数字货币倡议主任Neha Narula提出了一项使比特币抵御量子计算攻击的路线图，主张优先采取低风险、高效益的解决方案，而非等待所有技术细节达成共识。她建议通过软分叉部署抗量子输出类型（如BIP 360的P2MR）和签名方案，使用户可立即将资金转移到量子安全的地址，前提是避免地址重用等暴露公钥的行为。 Narula强调，当前无需解决所有潜在问题（如长期未动硬币的处理），而应聚焦于实际可部署的方案。她认为，即使未来出现密码学相关量子计算机（CRQC），只要大部分用户完成迁移，比特币网络便能承受少数硬币的风险。若脆弱硬币比例过高（如20%），则可能引发系统混乱。该方案虽会牺牲Taproot的部分隐私效率，但能为用户提供即时保护，避免因政治分歧延误应对。Narula反对依赖实验性方案或高成本应急机制，主张以渐进方式推动生态适配，为未来更复杂的决策争取时间。

bitcoinist5小时前

bitcoinist5小时前

关于本周《清晰法案》推进需知事项——为何五月中旬成为关键

经过数月拖延，美国参议院即将对《CLARITY法案》作出关键决策。本周将决定法案能否推进，若谈判压力持续，最终表决可能推迟至五月中旬。银行业正积极向参议院银行委员会施压，要求对法案中稳定币收益限制条款提出修改意见。北卡罗来纳银行家协会等组织已针对性联系主要谈判代表参议员蒂利斯及其团队。尽管上月加密货币行业已就妥协方案达成初步共识，但白宫经济顾问委员会近期发布的稳定币报告再度激起了银行业修改诉求。除收益条款外，该法案仍存在去中心化金融（DeFi）相关条款及道德规范等未决议题。蒂利斯表示虽存在待商榷细节，但对未来数周内安排法案审议持乐观态度。加密货币总市值本周一重返2.5万亿美元上方，市场密切关注立法进展。

bitcoinist6小时前

bitcoinist6小时前

交易

现货

合约

汪滔的第一款大模型，让Meta终于重新上桌了

文章摘要

01 新模型Muse Spark

02 推迟数次的“牛油果”

相关问答

你可能也喜欢

W3.io 与 Space and Time 携手推出可验证的AI金融基础设施

纽约总检察长起诉Coinbase和Gemini，指控其违反州法律

加密货币勒索事件波及霍尔木兹海峡，诈骗分子利用航运危机行骗

MIT研究员提出新路径使比特币具备抗量子计算能力

关于本周《清晰法案》推进需知事项——为何五月中旬成为关键

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签