汪滔的第一款大模型,让Meta终于重新上桌了

marsbit發佈於 2026-04-09更新於 2026-04-09

文章摘要

Meta于4月8日发布其Muse系列首款模型Spark,这是自去年夏天汪滔(Alexandr Wang)加入并组建“超级智能实验室(MSL)”后的首个重要成果。Spark定位为小巧快速的模型,专为Meta旗下产品(如WhatsApp、Instagram等)设计,支持多模态推理和“视觉思维链”功能,在医疗、科学推理及图表理解方面表现突出,但在编码和长任务处理上仍有不足。该模型发布后Meta股价单日一度上涨近9%,市场反应积极。Meta强调Spark只是起点,更大规模模型正在开发中,未来可能采用开源与闭源混合策略。

文 | 字母AI

从汪滔(Alexandr Wang)加入Meta算起,已经过去大约十个月了,世界眼瞅着就要从一个夏天走到另一个夏天,Meta的“牛油果”终于熟了。

当地时间4月8日,Meta官宣发布Muse系列的第一款模型Spark。这也是Meta吸纳汪滔并建立“超级智能实验室(MSL)”之后端上来的第一盘菜。

汪滔在X上连发数条消息介绍新模型,表示:“九个月前,我们从零开始重建了人工智能技术栈,包括全新的基础设施、架构和数据管道。Muse Spark 正是这项工作的成果。”

就连之前传闻与汪滔不和的Meta前首席科学家杨立昆(Yann LeCun)都赶来恭喜,气氛一片祥和。

Meta官方强调,Spark的设计初衷是“小巧快速”,用这样一个模型打头阵,而不是“憋大招”直接发布碾压态势的模型,Meta也清楚时间不等人。

目前来看这一招奏效了,Meta的股价在当日一度上涨约9%。

01 新模型Muse Spark

首先,让我们来看看Meta发了个什么模型。

新模型名叫Muse Spark,其中Muse是模型系列的名称。这个名字也挺有意思的,Muse即“缪斯”,Spark是“火花”。

Meta表示,Muse Spark是Meta迄今为止功能最强大的模型。它目前为Meta AI应用和网站提供支持,并将于未来几周内陆续登陆WhatsApp、Instagram、Facebook、Messenger和AI眼镜。Meta还将通过API向部分合作伙伴提供该模型的私有预览版。

很明显,Meta想要充分发挥自己的平台优势,明确表示Muse Spark是专为Meta的产品而打造的。

它将为Meta AI提供更智能、更快速的支持,并随着时间的推移解锁新功能,这些功能可以引用用户在Instagram、Facebook和Threads上分享的推荐内容和信息。

“我们正朝着个人超级智能的目标迈进:打造一款能够随时随地帮助任何人处理他们最关心之事的智能助手。”

Muse Spark的设计初衷是小巧快速,却足以应对科学、数学和健康领域的复杂问题,其核心是一个原生多模态推理模型。

与以往将视觉和文本“拼接”在一起的版本不同,Muse Spark从底层架构开始重建,将视觉信息整合到其内部逻辑中。这种架构转变实现了“视觉思维链”,使模型能够标注动态环境——例如识别复杂咖啡机的组件,或通过并排视频分析纠正用户的瑜伽姿势。

然而,最重要的技术飞跃是新增的“思考”模式。

Meta声称,该功能协调多个子智能体并行推理,使Meta能够与谷歌的Gemini Deep Think和OpenAI的GPT-5.4 Pro等极端推理模型相媲美。

单模型测试结果来看。

Meta的新模型Muse Spark在综合智能指数上表现亮眼。它在Artificial Analysis Intelligence Index(一个涵盖多维度基准的综合智能评分)上拿到了52分,位列全球第4名。排在前面的分别是Gemini 3.1 Pro和GPT-5.4(均为约57分),以及Claude Opus 4.6(约53分)。

相比去年Llama 4 Maverick的仅18分,这已经是巨大的进步,显示Meta在前沿模型上明显追赶了回来。

具体强项和弱项:

PhD级科学推理(GPQA Diamond):Muse Spark达到了89.5%的准确率,表现相当强劲,但仍略微落后于Gemini 3.1 Pro(94.3%)、GPT-5.4(92.8%)和Claude Opus 4.6(92.7%)。

图表与视觉理解(CharXiv Reasoning,在Contemplating模式下):得分86.4,在这项多模态视觉推理任务上明显优于竞品——超过了Gemini 3.1 Pro(80.2)、GPT-5.4(82.8)和Claude Opus 4.6(65.3)。视觉理解和图表推理是Muse Spark的突出优势之一。

医疗硬推理(HealthBench Hard):得分42.8%,大幅领先所有主要竞品,包括GPT-5.4(40.1%)、Gemini 3.1 Pro(20.6%)和Claude Opus 4.6(14.8%)。Meta表示,这得益于他们与超过1000名医生合作进行的针对性训练,医疗相关能力是它的亮点。

软件工程与编码(SWE-Bench Verified):得分77.4%,落后于Claude Opus 4.6(80.8%)和Gemini 3.1 Pro(80.6%)。Meta自己也坦承,在长时程多步自主任务(agentic tasks)和复杂编码工作流上还有差距,需要继续投入。

多模态多学科理解(MMMU Pro):得分约80.4–80.5%,仅次于Gemini 3.1 Pro(83.9%),在视觉多模态任务中排名第二。

总体来看,Muse Spark在视觉多模态推理、医疗领域和高效推理上表现突出,尤其适合Meta自己的社交、内容和健康生态;但在纯编码和长链条自主任务上仍有追赶空间。

02 推迟数次的“牛油果”

在X上,发生了一个有趣的小插曲。

作为Meta如今的AI掌舵手,汪滔(Alexandr Wang)在X上咣咣发布消息宣传新模型。

这个时候,有人指出,Meta给出的benchmark图表太混淆视听,“简直是犯罪”。在这张图表中,Muse Spark的分数排在第一列并且全部标成突出高亮色,乍一看,感觉是全面领先,但是细看便知其实有些分数是较低的。

在图表上玩花样,其实并不新鲜,OpenAI此前已经多次因此受到指责。

有意思的是,汪滔这次选择了立刻“滑跪”,回复该质疑:

“抱歉,我们并非有意暗示我们的得分最高。恰恰相反,大多数评估结果表明,我们的模型还有很多需要改进的地方。我们不会再犯同样的错误。”

不难看出,Meta也并非要让Muse Spark达到全面碾压之势,而是要回到AI的竞争行列当中。

从种种迹象来看,Muse系列应该就是Meta此前内部代号“牛油果(Avocado)”的项目。

牛油果已经跳票太久,Meta如今采取了“先小后大”的策略。Meta在官方博文中强调,Spark主打快速小巧,这只是个开始:

“我们的模型正在按预期发展。Muse Spark是我们发展历程中的一个早期数据点,我们正在开发更大规模的模型。”

这和AI行业(尤其是头部玩家)习惯于“炸场”“惊世骇俗”的节奏不同,但是Meta确实也没时间慢慢来了。

去年初,Meta发布Llama 4系列后,模型表现未达预期(尤其是Behemoth大模型性能提升不足),随后暂停了Llama系列的进一步开源研发。

到了去年夏天,Meta斥资143亿美元投资Scale AI(持股49%),并直接挖来Scale AI创始人兼CEO、28岁的汪滔(Alexandr Wang)担任首席AI官,正式成立Meta Superintelligence Labs(MSL)。

同时Meta展开疯狂挖角,从OpenAI、Google等公司高薪招募数十名顶尖研究员,部分offer达到数百万至上亿美元。

成本方面,Meta2025年全年AI相关资本支出达722.2亿美元;2026年1月财报指引显示,这一数字将大幅提升至1150亿—1350亿美元,几乎翻倍,主要用于MSL的模型训练和数据中心扩建。

过去这十个月的时间里,Meta以及扎克伯格、Meta的AI一把手汪滔身上,都压力山大。人们迫切地想看到汪滔加入、Meta重组之后,究竟会端上来一盘什么菜。

至少从市场的第一时间反馈来看,Meta放弃“憋大招”转而先上小菜的策略是奏效的,Meta股价当日一度大涨近9%,创下自今年1月以来最大单日涨幅。截至收盘,Meta收涨6.5%。

一个值得注意的信息是,过去外界一直认为“牛油果”将完全转向闭源,但Meta这次却没有把话说死。未来,Meta可能走开源与闭源并行的混合策略,将旗舰模型和独家技术保留在内部的同时保持新鲜模型对广泛开发者群体的开源可用性。

Meta总算把“牛油果”端上桌了,但这还远远不是终点。对汪滔和扎克伯格来说,Muse Spark更像是一声发令枪,未来如何,还要看“越来越强”的承诺能不能兑现。

相關問答

QMeta发布的新模型Muse Spark的主要特点是什么?

AMuse Spark是Meta Muse系列的第一款模型,设计初衷是‘小巧快速’,专为Meta的产品生态打造。它是一个原生多模态推理模型,从底层架构整合视觉信息,支持‘视觉思维链’和‘思考’模式,能处理科学、数学和健康领域的复杂问题,并为Meta AI应用和网站提供支持。

QMuse Spark在哪些具体评估指标上表现突出?

AMuse Spark在医疗硬推理(HealthBench Hard)上得分42.8%,大幅领先竞品;在图表与视觉理解(CharXiv Reasoning)上得分86.4,优于其他模型;在PhD级科学推理(GPQA Diamond)达到89.5%准确率,表现强劲但略低于Gemini 3.1 Pro和GPT-5.4。

Q汪滔(Alexandr Wang)在Meta的角色和贡献是什么?

A汪滔是Meta的首席AI官,负责领导Meta Superintelligence Labs(MSL)。他加入Meta后,从零开始重建了AI技术栈,包括基础设施、架构和数据管道,Muse Spark是他团队的首个成果,旨在推动Meta在AI领域的竞争力。

QMeta发布Muse Spark后市场反应如何?

A市场反应积极,Meta股价在发布当日一度上涨约9%,创下自当年1月以来最大单日涨幅,收盘时上涨6.5%。这表明投资者对MetaAI策略和模型发布的乐观态度。

QMuse Spark与Meta之前的Llama系列模型相比有何进步?

A相比去年的Llama 4 Maverick模型在综合智能指数仅得18分,Muse Spark得分52分,位列全球第4,显示Meta在模型性能上取得了巨大进步,重新回到了AI前沿竞争行列。

你可能也喜歡

交易

現貨
合約

熱門文章

什麼是 $S$

理解 SPERO:全面概述 SPERO 簡介 隨著創新領域的不斷演變,web3 技術和加密貨幣項目的出現在塑造數字未來中扮演著關鍵角色。在這個動態領域中,SPERO(標記為 SPERO,$$s$)是一個引起關注的項目。本文旨在收集並呈現有關 SPERO 的詳細信息,以幫助愛好者和投資者理解其基礎、目標和在 web3 和加密領域內的創新。 SPERO,$$s$ 是什麼? SPERO,$$s$ 是加密空間中的一個獨特項目,旨在利用去中心化和區塊鏈技術的原則,創建一個促進參與、實用性和金融包容性的生態系統。該項目旨在以新的方式促進點對點互動,為用戶提供創新的金融解決方案和服務。 SPERO,$$s$ 的核心目標是通過提供增強用戶體驗的工具和平台來賦能個人。這包括使交易方式更加靈活、促進社區驅動的倡議,以及通過去中心化應用程序(dApps)創造金融機會的途徑。SPERO,$$s$ 的基本願景圍繞包容性展開,旨在彌合傳統金融中的差距,同時利用區塊鏈技術的優勢。 誰是 SPERO,$$s$ 的創建者? SPERO,$$s$ 的創建者身份仍然有些模糊,因為公開可用的資源對其創始人提供的詳細背景信息有限。這種缺乏透明度可能源於該項目對去中心化的承諾——這是一種許多 web3 項目所共享的精神,優先考慮集體貢獻而非個人認可。 通過將討論重心放在社區及其共同目標上,SPERO,$$s$ 體現了賦能的本質,而不特別突出某些個體。因此,理解 SPERO 的精神和使命比識別單一創建者更為重要。 誰是 SPERO,$$s$ 的投資者? SPERO,$$s$ 得到了來自風險投資家到天使投資者的多樣化投資者的支持,他們致力於促進加密領域的創新。這些投資者的關注點通常與 SPERO 的使命一致——優先考慮那些承諾社會技術進步、金融包容性和去中心化治理的項目。 這些投資者通常對不僅提供創新產品,還對區塊鏈社區及其生態系統做出積極貢獻的項目感興趣。這些投資者的支持強化了 SPERO,$$s$ 作為快速發展的加密項目領域中的一個重要競爭者。 SPERO,$$s$ 如何運作? SPERO,$$s$ 採用多面向的框架,使其與傳統的加密貨幣項目區別開來。以下是一些突顯其獨特性和創新的關鍵特徵: 去中心化治理:SPERO,$$s$ 整合了去中心化治理模型,賦予用戶積極參與決策過程的權力,關於項目的未來。這種方法促進了社區成員之間的擁有感和責任感。 代幣實用性:SPERO,$$s$ 使用其自己的加密貨幣代幣,旨在在生態系統內部提供多種功能。這些代幣使交易、獎勵和平台上提供的服務得以促進,增強了整體參與度和實用性。 分層架構:SPERO,$$s$ 的技術架構支持模塊化和可擴展性,允許在項目發展過程中無縫整合額外的功能和應用。這種適應性對於在不斷變化的加密環境中保持相關性至關重要。 社區參與:該項目強調社區驅動的倡議,採用激勵合作和反饋的機制。通過培養強大的社區,SPERO,$$s$ 能夠更好地滿足用戶需求並適應市場趨勢。 專注於包容性:通過提供低交易費用和用戶友好的界面,SPERO,$$s$ 旨在吸引多樣化的用戶群體,包括那些以前可能未曾參與加密領域的個體。這種對包容性的承諾與其通過可及性賦能的總體使命相一致。 SPERO,$$s$ 的時間線 理解一個項目的歷史提供了對其發展軌跡和里程碑的關鍵見解。以下是建議的時間線,映射 SPERO,$$s$ 演變中的重要事件: 概念化和構思階段:形成 SPERO,$$s$ 基礎的初步想法被提出,與區塊鏈行業內的去中心化和社區聚焦原則密切相關。 項目白皮書的發布:在概念階段之後,發布了一份全面的白皮書,詳細說明了 SPERO,$$s$ 的願景、目標和技術基礎設施,以吸引社區的興趣和反饋。 社區建設和早期參與:積極進行外展工作,建立早期採用者和潛在投資者的社區,促進圍繞項目目標的討論並獲得支持。 代幣生成事件:SPERO,$$s$ 進行了一次代幣生成事件(TGE),向早期支持者分發其原生代幣,並在生態系統內建立初步流動性。 首次 dApp 上線:與 SPERO,$$s$ 相關的第一個去中心化應用程序(dApp)上線,允許用戶參與平台的核心功能。 持續發展和夥伴關係:對項目產品的持續更新和增強,包括與區塊鏈領域其他參與者的戰略夥伴關係,使 SPERO,$$s$ 成為加密市場中一個具有競爭力和不斷演變的參與者。 結論 SPERO,$$s$ 是 web3 和加密貨幣潛力的見證,能夠徹底改變金融系統並賦能個人。憑藉對去中心化治理、社區參與和創新設計功能的承諾,它為更具包容性的金融環境鋪平了道路。 與任何在快速發展的加密領域中的投資一樣,潛在的投資者和用戶都被鼓勵進行徹底研究,並對 SPERO,$$s$ 的持續發展進行深思熟慮的參與。該項目展示了加密行業的創新精神,邀請人們進一步探索其無數可能性。儘管 SPERO,$$s$ 的旅程仍在展開,但其基礎原則確實可能影響我們在互聯網數字生態系統中如何與技術、金融和彼此互動的未來。

85 人學過發佈於 2024.12.17更新於 2024.12.17

什麼是 $S$

什麼是 AGENT S

Agent S:Web3中自主互動的未來 介紹 在不斷演變的Web3和加密貨幣領域,創新不斷重新定義個人如何與數字平台互動。Agent S是一個開創性的項目,承諾通過其開放的代理框架徹底改變人機互動。Agent S旨在簡化複雜任務,為人工智能(AI)提供變革性的應用,鋪平自主互動的道路。本詳細探索將深入研究該項目的複雜性、其獨特特徵以及對加密貨幣領域的影響。 什麼是Agent S? Agent S是一個突破性的開放代理框架,專門設計用來解決計算機任務自動化中的三個基本挑戰: 獲取特定領域知識:該框架智能地從各種外部知識來源和內部經驗中學習。這種雙重方法使其能夠建立豐富的特定領域知識庫,提升其在任務執行中的表現。 長期任務規劃:Agent S採用經驗增強的分層規劃,這是一種戰略方法,可以有效地分解和執行複雜任務。此特徵顯著提升了其高效和有效地管理多個子任務的能力。 處理動態、不均勻的界面:該項目引入了代理-計算機界面(ACI),這是一種創新的解決方案,增強了代理和用戶之間的互動。利用多模態大型語言模型(MLLMs),Agent S能夠無縫導航和操作各種圖形用戶界面。 通過這些開創性特徵,Agent S提供了一個強大的框架,解決了自動化人機互動中涉及的複雜性,為AI及其他領域的無數應用奠定了基礎。 誰是Agent S的創建者? 儘管Agent S的概念根本上是創新的,但有關其創建者的具體信息仍然難以捉摸。創建者目前尚不清楚,這突顯了該項目的初期階段或戰略選擇將創始成員保密。無論是否匿名,重點仍然在於框架的能力和潛力。 誰是Agent S的投資者? 由於Agent S在加密生態系統中相對較新,關於其投資者和財務支持者的詳細信息並未明確記錄。缺乏對支持該項目的投資基礎或組織的公開見解,引發了對其資金結構和發展路線圖的質疑。了解其支持背景對於評估該項目的可持續性和潛在市場影響至關重要。 Agent S如何運作? Agent S的核心是尖端技術,使其能夠在多種環境中有效運作。其運營模型圍繞幾個關鍵特徵構建: 類人計算機互動:該框架提供先進的AI規劃,力求使與計算機的互動更加直觀。通過模仿人類在任務執行中的行為,承諾提升用戶體驗。 敘事記憶:用於利用高級經驗,Agent S利用敘事記憶來跟蹤任務歷史,從而增強其決策過程。 情節記憶:此特徵為用戶提供逐步指導,使框架能夠在任務展開時提供上下文支持。 支持OpenACI:Agent S能夠在本地運行,使用戶能夠控制其互動和工作流程,與Web3的去中心化理念相一致。 與外部API的輕鬆集成:其多功能性和與各種AI平台的兼容性確保了Agent S能夠無縫融入現有技術生態系統,成為開發者和組織的理想選擇。 這些功能共同促成了Agent S在加密領域的獨特地位,因為它以最小的人類干預自動化複雜的多步任務。隨著項目的發展,其在Web3中的潛在應用可能重新定義數字互動的展開方式。 Agent S的時間線 Agent S的發展和里程碑可以用一個時間線來概括,突顯其重要事件: 2024年9月27日:Agent S的概念在一篇名為《一個像人類一樣使用計算機的開放代理框架》的綜合研究論文中推出,展示了該項目的基礎工作。 2024年10月10日:該研究論文在arXiv上公開,提供了對框架及其基於OSWorld基準的性能評估的深入探索。 2024年10月12日:發布了一個視頻演示,提供了對Agent S能力和特徵的視覺洞察,進一步吸引潛在用戶和投資者。 這些時間線上的標記不僅展示了Agent S的進展,還表明了其對透明度和社區參與的承諾。 有關Agent S的要點 隨著Agent S框架的持續演變,幾個關鍵特徵脫穎而出,強調其創新性和潛力: 創新框架:旨在提供類似人類互動的直觀計算機使用,Agent S為任務自動化帶來了新穎的方法。 自主互動:通過GUI自主與計算機互動的能力標誌著向更智能和高效的計算解決方案邁進了一步。 複雜任務自動化:憑藉其強大的方法論,能夠自動化複雜的多步任務,使過程更快且更少出錯。 持續改進:學習機制使Agent S能夠從過去的經驗中改進,不斷提升其性能和效率。 多功能性:其在OSWorld和WindowsAgentArena等不同操作環境中的適應性確保了它能夠服務於廣泛的應用。 隨著Agent S在Web3和加密領域中的定位,其增強互動能力和自動化過程的潛力標誌著AI技術的一次重大進步。通過其創新框架,Agent S展現了數字互動的未來,為各行各業的用戶承諾提供更無縫和高效的體驗。 結論 Agent S代表了AI與Web3結合的一次大膽飛躍,具有重新定義我們與技術互動方式的能力。儘管仍處於早期階段,但其應用的可能性廣泛且引人入勝。通過其全面的框架解決關鍵挑戰,Agent S旨在將自主互動帶到數字體驗的最前沿。隨著我們深入加密貨幣和去中心化的領域,像Agent S這樣的項目無疑將在塑造技術和人機協作的未來中發揮關鍵作用。

604 人學過發佈於 2025.01.14更新於 2025.01.14

什麼是 AGENT S

如何購買S

歡迎來到HTX.com!在這裡,購買Sonic (S)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Sonic (S)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Sonic (S)購買Sonic (S)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Sonic (S)在HTX的現貨市場輕鬆交易Sonic (S)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

1.3k 人學過發佈於 2025.01.15更新於 2025.03.21

如何購買S

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 S (S)幣價的意見。

活动图片