汪滔的第一款大模型,让Meta终于重新上桌了

marsbit发布于2026-04-09更新于2026-04-09

文章摘要

Meta于4月8日发布其Muse系列首款模型Spark,这是自去年夏天汪滔(Alexandr Wang)加入并组建“超级智能实验室(MSL)”后的首个重要成果。Spark定位为小巧快速的模型,专为Meta旗下产品(如WhatsApp、Instagram等)设计,支持多模态推理和“视觉思维链”功能,在医疗、科学推理及图表理解方面表现突出,但在编码和长任务处理上仍有不足。该模型发布后Meta股价单日一度上涨近9%,市场反应积极。Meta强调Spark只是起点,更大规模模型正在开发中,未来可能采用开源与闭源混合策略。

文 | 字母AI

从汪滔(Alexandr Wang)加入Meta算起,已经过去大约十个月了,世界眼瞅着就要从一个夏天走到另一个夏天,Meta的“牛油果”终于熟了。

当地时间4月8日,Meta官宣发布Muse系列的第一款模型Spark。这也是Meta吸纳汪滔并建立“超级智能实验室(MSL)”之后端上来的第一盘菜。

汪滔在X上连发数条消息介绍新模型,表示:“九个月前,我们从零开始重建了人工智能技术栈,包括全新的基础设施、架构和数据管道。Muse Spark 正是这项工作的成果。”

就连之前传闻与汪滔不和的Meta前首席科学家杨立昆(Yann LeCun)都赶来恭喜,气氛一片祥和。

Meta官方强调,Spark的设计初衷是“小巧快速”,用这样一个模型打头阵,而不是“憋大招”直接发布碾压态势的模型,Meta也清楚时间不等人。

目前来看这一招奏效了,Meta的股价在当日一度上涨约9%。

01 新模型Muse Spark

首先,让我们来看看Meta发了个什么模型。

新模型名叫Muse Spark,其中Muse是模型系列的名称。这个名字也挺有意思的,Muse即“缪斯”,Spark是“火花”。

Meta表示,Muse Spark是Meta迄今为止功能最强大的模型。它目前为Meta AI应用和网站提供支持,并将于未来几周内陆续登陆WhatsApp、Instagram、Facebook、Messenger和AI眼镜。Meta还将通过API向部分合作伙伴提供该模型的私有预览版。

很明显,Meta想要充分发挥自己的平台优势,明确表示Muse Spark是专为Meta的产品而打造的。

它将为Meta AI提供更智能、更快速的支持,并随着时间的推移解锁新功能,这些功能可以引用用户在Instagram、Facebook和Threads上分享的推荐内容和信息。

“我们正朝着个人超级智能的目标迈进:打造一款能够随时随地帮助任何人处理他们最关心之事的智能助手。”

Muse Spark的设计初衷是小巧快速,却足以应对科学、数学和健康领域的复杂问题,其核心是一个原生多模态推理模型。

与以往将视觉和文本“拼接”在一起的版本不同,Muse Spark从底层架构开始重建,将视觉信息整合到其内部逻辑中。这种架构转变实现了“视觉思维链”,使模型能够标注动态环境——例如识别复杂咖啡机的组件,或通过并排视频分析纠正用户的瑜伽姿势。

然而,最重要的技术飞跃是新增的“思考”模式。

Meta声称,该功能协调多个子智能体并行推理,使Meta能够与谷歌的Gemini Deep Think和OpenAI的GPT-5.4 Pro等极端推理模型相媲美。

单模型测试结果来看。

Meta的新模型Muse Spark在综合智能指数上表现亮眼。它在Artificial Analysis Intelligence Index(一个涵盖多维度基准的综合智能评分)上拿到了52分,位列全球第4名。排在前面的分别是Gemini 3.1 Pro和GPT-5.4(均为约57分),以及Claude Opus 4.6(约53分)。

相比去年Llama 4 Maverick的仅18分,这已经是巨大的进步,显示Meta在前沿模型上明显追赶了回来。

具体强项和弱项:

PhD级科学推理(GPQA Diamond):Muse Spark达到了89.5%的准确率,表现相当强劲,但仍略微落后于Gemini 3.1 Pro(94.3%)、GPT-5.4(92.8%)和Claude Opus 4.6(92.7%)。

图表与视觉理解(CharXiv Reasoning,在Contemplating模式下):得分86.4,在这项多模态视觉推理任务上明显优于竞品——超过了Gemini 3.1 Pro(80.2)、GPT-5.4(82.8)和Claude Opus 4.6(65.3)。视觉理解和图表推理是Muse Spark的突出优势之一。

医疗硬推理(HealthBench Hard):得分42.8%,大幅领先所有主要竞品,包括GPT-5.4(40.1%)、Gemini 3.1 Pro(20.6%)和Claude Opus 4.6(14.8%)。Meta表示,这得益于他们与超过1000名医生合作进行的针对性训练,医疗相关能力是它的亮点。

软件工程与编码(SWE-Bench Verified):得分77.4%,落后于Claude Opus 4.6(80.8%)和Gemini 3.1 Pro(80.6%)。Meta自己也坦承,在长时程多步自主任务(agentic tasks)和复杂编码工作流上还有差距,需要继续投入。

多模态多学科理解(MMMU Pro):得分约80.4–80.5%,仅次于Gemini 3.1 Pro(83.9%),在视觉多模态任务中排名第二。

总体来看,Muse Spark在视觉多模态推理、医疗领域和高效推理上表现突出,尤其适合Meta自己的社交、内容和健康生态;但在纯编码和长链条自主任务上仍有追赶空间。

02 推迟数次的“牛油果”

在X上,发生了一个有趣的小插曲。

作为Meta如今的AI掌舵手,汪滔(Alexandr Wang)在X上咣咣发布消息宣传新模型。

这个时候,有人指出,Meta给出的benchmark图表太混淆视听,“简直是犯罪”。在这张图表中,Muse Spark的分数排在第一列并且全部标成突出高亮色,乍一看,感觉是全面领先,但是细看便知其实有些分数是较低的。

在图表上玩花样,其实并不新鲜,OpenAI此前已经多次因此受到指责。

有意思的是,汪滔这次选择了立刻“滑跪”,回复该质疑:

“抱歉,我们并非有意暗示我们的得分最高。恰恰相反,大多数评估结果表明,我们的模型还有很多需要改进的地方。我们不会再犯同样的错误。”

不难看出,Meta也并非要让Muse Spark达到全面碾压之势,而是要回到AI的竞争行列当中。

从种种迹象来看,Muse系列应该就是Meta此前内部代号“牛油果(Avocado)”的项目。

牛油果已经跳票太久,Meta如今采取了“先小后大”的策略。Meta在官方博文中强调,Spark主打快速小巧,这只是个开始:

“我们的模型正在按预期发展。Muse Spark是我们发展历程中的一个早期数据点,我们正在开发更大规模的模型。”

这和AI行业(尤其是头部玩家)习惯于“炸场”“惊世骇俗”的节奏不同,但是Meta确实也没时间慢慢来了。

去年初,Meta发布Llama 4系列后,模型表现未达预期(尤其是Behemoth大模型性能提升不足),随后暂停了Llama系列的进一步开源研发。

到了去年夏天,Meta斥资143亿美元投资Scale AI(持股49%),并直接挖来Scale AI创始人兼CEO、28岁的汪滔(Alexandr Wang)担任首席AI官,正式成立Meta Superintelligence Labs(MSL)。

同时Meta展开疯狂挖角,从OpenAI、Google等公司高薪招募数十名顶尖研究员,部分offer达到数百万至上亿美元。

成本方面,Meta2025年全年AI相关资本支出达722.2亿美元;2026年1月财报指引显示,这一数字将大幅提升至1150亿—1350亿美元,几乎翻倍,主要用于MSL的模型训练和数据中心扩建。

过去这十个月的时间里,Meta以及扎克伯格、Meta的AI一把手汪滔身上,都压力山大。人们迫切地想看到汪滔加入、Meta重组之后,究竟会端上来一盘什么菜。

至少从市场的第一时间反馈来看,Meta放弃“憋大招”转而先上小菜的策略是奏效的,Meta股价当日一度大涨近9%,创下自今年1月以来最大单日涨幅。截至收盘,Meta收涨6.5%。

一个值得注意的信息是,过去外界一直认为“牛油果”将完全转向闭源,但Meta这次却没有把话说死。未来,Meta可能走开源与闭源并行的混合策略,将旗舰模型和独家技术保留在内部的同时保持新鲜模型对广泛开发者群体的开源可用性。

Meta总算把“牛油果”端上桌了,但这还远远不是终点。对汪滔和扎克伯格来说,Muse Spark更像是一声发令枪,未来如何,还要看“越来越强”的承诺能不能兑现。

相关问答

QMeta发布的新模型Muse Spark的主要特点是什么?

AMuse Spark是Meta Muse系列的第一款模型,设计初衷是‘小巧快速’,专为Meta的产品生态打造。它是一个原生多模态推理模型,从底层架构整合视觉信息,支持‘视觉思维链’和‘思考’模式,能处理科学、数学和健康领域的复杂问题,并为Meta AI应用和网站提供支持。

QMuse Spark在哪些具体评估指标上表现突出?

AMuse Spark在医疗硬推理(HealthBench Hard)上得分42.8%,大幅领先竞品;在图表与视觉理解(CharXiv Reasoning)上得分86.4,优于其他模型;在PhD级科学推理(GPQA Diamond)达到89.5%准确率,表现强劲但略低于Gemini 3.1 Pro和GPT-5.4。

Q汪滔(Alexandr Wang)在Meta的角色和贡献是什么?

A汪滔是Meta的首席AI官,负责领导Meta Superintelligence Labs(MSL)。他加入Meta后,从零开始重建了AI技术栈,包括基础设施、架构和数据管道,Muse Spark是他团队的首个成果,旨在推动Meta在AI领域的竞争力。

QMeta发布Muse Spark后市场反应如何?

A市场反应积极,Meta股价在发布当日一度上涨约9%,创下自当年1月以来最大单日涨幅,收盘时上涨6.5%。这表明投资者对MetaAI策略和模型发布的乐观态度。

QMuse Spark与Meta之前的Llama系列模型相比有何进步?

A相比去年的Llama 4 Maverick模型在综合智能指数仅得18分,Muse Spark得分52分,位列全球第4,显示Meta在模型性能上取得了巨大进步,重新回到了AI前沿竞争行列。

你可能也喜欢

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.0k人学过发布于 2025.01.15更新于 2025.03.21

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片