清华2年前预言,正成为全球共识Meta等三大AI机构已得出同一结论

marsbit發佈於 2026-04-13更新於 2026-04-13

文章摘要

清华团队两年前提出的AI“密度定律”正获全球验证。该定律指出,达到特定智能水平所需模型参数量每3.5个月下降一半,意味着AI能力呈指数级提升。近期,Meta和METR两家机构分别从训练算力效率(节省90%算力)和任务时长能力(每88.6天翻倍)两个独立角度得出相同结论,其数据曲线与密度定律高度吻合。 密度定律预示三大行业变革:推理成本加速下降(部分场景一年内降幅达400倍)、端侧智能爆发(手机或笔记本将能运行当前顶级模型),以及大模型开发策略从“堆参数”转向“提密度”。提出该理论的面壁智能已通过MiniCPM系列模型持续验证此规律,其开源模型下载量超2400万次。 此次跨机构、跨方法的共识印证了中国AI研究的前瞻性,标志着AI发展进入新范式加速阶段。

【导读】太疯狂了!Meta和METR刚测出的AI进化数据,与中国团队两年前提出的「密度定律」完美重合。硅谷猛然回头,发现中国研究者在这条路上已领先两年!

全球三家最严肃的AI研究机构,过去一周集体撞车了!

4月3日,美国研究机构METR悄悄更新了一份技术报告,核心结论压成一句话。

AI能力每88.6天翻倍一次。

5天后,4月8日,Meta超级智能实验室发布全新模型Muse Spark,公开了一条内部叫做scaling ladder的训练效率曲线,结论也是一句话。

要追上一年前Llama 4 Maverick的性能,新模型只需要不到十分之一的训练算力。

一份测任务时长,一份测训练算力。两家机构没有任何往来,研究方法毫无重合。

但当两条曲线被换算到同一坐标系里,斜率几乎完全重合

到这里,事情已经够离谱了。

更离谱的是,这条曲线,被一个中国团队两年前就完整地画出来过,还登上了Nature子刊。

它叫密度定律

两年前,有人提前画过这条线

这个概念最早出现在一篇叫「Densing Law of LLMs」的论文里。

作者是面壁智能和清华大学的联合团队,孙茂松和刘知远两位教授领衔,第一作者是博士生肖朝军。

论文2024年12月挂上arXiv,2025年11月被Nature Machine Intelligence接收。

论文地址:https://arxiv.org/abs/2412.04315

论文地址:https://www.nature.com/articles/s42256-025-01137-0

论文的核心判断只有一句话。

模型智能密度随时间呈指数级增强,达到特定智能水平所需的参数量,每3.5个月下降一半

放在2024年底,这话听上去有点过激。

那时全行业都在崇拜scaling law。OpenAI在堆模型,Anthropic在堆模型,Meta也在堆模型。

所有人都觉得参数越大智能越强,把GPU烧到极致才是正道。

但研究团队不这么看。

他们把当时所有有影响力的开源基础模型,从Llama-1一路到Gemma-2、MiniCPM-3,总共51个模型都放进了同一把尺子里去量。

五大基准跑完,结果是几乎完美的指数关系,R2达到0.934。

考虑到大模型评测很容易被数据污染干扰,他们又用一个新构建的污染过滤数据集MMLU-CF重测了一次。R2=0.953。

两次拟合都拿到了接近1的R2。统计学上,这几乎不可能是巧合。

换句话说就是,这两年发布的每一个主流开源模型,不管来自哪个团队、用什么架构,都落在了同一条「每3.5个月翻倍」的指数线上。

到这里,故事还只是「一个中国团队提出了一个看上去很激进的经验规律」。

真正让这件事变成一个「时刻」的,是接下来这小半年发生的事。

三家机构,三种方法,同一个斜率

把面壁、Meta、METR三方的结论摊开看。

  • 面壁的密度定律衡量的是「同样的智能水平需要多少参数」。结论是参数需求每3.5个月减半。
  • Meta的scaling ladder衡量的是「同样的智能水平需要多少训练算力」。结论是Muse Spark比一年前的Llama 4 Maverick节省了一个数量级。
  • METR的时间跨度报告衡量的是「同样的模型能搞定多长任务」。结论是任务时长每88.6天翻倍。

三把尺子。三个学术机构。三种没有任何重合的研究路径。

但当所有数字被换算到同一坐标系里看时,它们的曲线斜率几乎完全重合。

这事最容易被忽略的一点是,密度定律是这三者里最早提出的。比Meta的scaling ladder早了近两年,比METR的完整建模也早了一年多。

而当Meta在四月初的发布博客里画出那条scaling ladder时,他们大概自己都没意识到。这张图的形状,和2024年北京一个学术会议PPT上的曲线,几乎是同一条线。

什么样的观察,才配得上「定律」两个字

在科学界,有一套不成文的标准,来判断一条经验观察是否有资格被叫做「定律」。

不是看数据有多漂亮,是看它能不能在多个独立的测量系统下同时成立。

摩尔定律之所以是定律,因为半导体行业从光刻精度、晶体管密度、单位算力成本三个完全不同的维度,几十年来一遍遍验证过它。

密度定律走的是同一条路。

它最初只是来自单一团队的一条拟合曲线。到Nature子刊接收时,它已经能在污染过滤后的数据集上重现。到这个月,它在Meta的训练数据和METR的任务评测里又被两次独立验证。

放在更大的坐标系里看,这一刻像极了1880年代电力刚进入纽约的时候。

那时也是几个不同的发明家、不同的工程师、不同的城市,各自在搞各自的电网。直到有人把所有项目的发展曲线画在一张纸上,人们才反应过来。这不是几个零散的工程进步,这是一个新时代正在悄悄铺开。

只是这一次,从论文发表到被全球同行验证,只用了不到一年。

三个推论,每一个都在改写行业假设

如果密度定律站得住脚,它会同时改写很多东西。

第一,推理成本会比所有人预期的都崩得更快。

密度定律的一个推论是,达到同样性能的LLM,推理成本大概每2.6个月减半

如今,这个降幅已经被现实超过了。

Epoch AI最新追踪数据显示,达到Claude 3.5 Sonnet性能水平的LLM,过去一年token价格降了400倍。同档位性能的最快降幅触到900倍/年。

2022年底GPT-3.5开价20美元/百万token那种水平,今天Mistral Nemo只要0.02美元,便宜了1000倍,模型还更强。

回头来看,论文里的预测还是保守了。

第二,端侧智能的爆发点,比所有人预想的都近。

把密度定律和摩尔定律相乘,会得到一个更刺激的数字。

按目前估算,在同价格芯片上能跑的最大有效模型规模,大约每88天翻一倍

这个数字和METR算出的88.6天几乎一致。两家完全不同的推算路径,在小数点后撞了车。

未来三五年,在一台普通笔记本甚至一部手机上跑当下顶级GPT级别模型这件事,可能不再是科幻。

第三,大模型行业的最优策略,正在悄悄反转。

过去三年,行业对scaling law的理解一直停留在「堆参数堆数据」

但密度定律给出了一个反直觉的判断。在密度持续指数增长的前提下,任何状态的最强模型都只有几个月的最优窗口期。

砸全部资源去训一个更大的模型,然后等三个月被一个体积一半的新模型超越,在经济账上是不划算的。

真正可持续的路,是把资源砸在密度本身的提升上。更好的架构,更高质量的数据,更聪明的训练算法。

面壁,一直在沿着自己画的尺子走

值得说一句的是,密度定律不是一篇发完就结束的论文。

提出这套理论的面壁智能,过去两年一直在用自家的「小钢炮」MiniCPM系列模型验证它。

MiniCPM-1-2.4B在2024年2月发布的时候,跑分能打平或超过2023年9月的Mistral-7B。也就是说,四个月时间,35%的参数,达到了同等性能。

这个数字被直接写进了Nature子刊那篇论文里,作为密度定律的第一个实证案例。

从那之后,小钢炮系列一路开源,覆盖10B以下参数的文本、多模态、语音、全模态四大方向。这个开源完整度,在国内除了阿里之外,只有面壁一家做到。

到目前为止,小钢炮系列在全球的开源下载量已经突破2400万次。

它不是行业里最大的模型。但它是行业里第一个把「密度优先」当作公司方法论来执行的团队。

而当Meta和METR在2026年4月这一周用各自的方式验证密度定律时,这家2024年就开始按这套方法论训练模型的中国公司,其实已经领先了两年的工程经验。

这一次,中国研究者站在了曲线的起点

一个中国研究团队两年前提出的理论框架,正在被Meta、METR这些海外最严肃的机构,用他们各自的方式,一次次重新发现。

这件事的份量,可能需要一点时间才能完全理解。

它不是一个「我们也行」的故事。它是一个「我们更早一点看见」的故事。

科学史上这样的瞬间不算多。一个在2024年被怀疑的判断,在2026年变成了多个独立证据指向的同一条曲线。

这种跨地域、跨方法、跨机构的「不约而同」,在物理学里发生过几次,每一次都标志着一个旧范式的终结和一个新范式的开始。

中国AI研究者这一次站在了那个起点上。

而那条曲线,还在以每88天翻一倍的速度往上走。

参考资料:

面壁智能首创的「密度定律」,获 Meta 等海外顶级机构认可

https://arxiv.org/abs/2412.04315

https://www.nature.com/articles/s42256-025-01137-0

https://metr.org/blog/2026-1-29-time-horizon-1-1/

https://ai.meta.com/blog/introducing-muse-spark-msl/

本文来自微信公众号“新智元”,编辑:好困 桃子

相關問答

Q什么是密度定律?

A密度定律是由面壁智能和清华大学联合团队提出的理论,指出模型智能密度随时间呈指数级增强,达到特定智能水平所需的参数量每3.5个月下降一半。

Q哪些机构的研究结果验证了密度定律?

AMeta的scaling ladder、METR的时间跨度报告以及面壁智能的密度定律研究,这三家机构使用不同的研究方法,得出的曲线斜率几乎完全重合,共同验证了密度定律。

Q密度定律对AI行业有哪些影响?

A密度定律将导致推理成本快速下降、端侧智能爆发点提前,并改变行业最优策略,从堆参数转向提升模型密度(如架构、数据质量和训练算法)。

Q面壁智能如何验证密度定律?

A面壁智能通过开源小钢炮MiniCPM系列模型验证密度定律,例如MiniCPM-1-2.4B以35%的参数在四个月内达到与Mistral-7B同等性能,并持续推动模型密度提升。

Q密度定律与摩尔定律有何关联?

A密度定律与摩尔定律结合可推算端侧智能发展速度,例如同价格芯片能跑的最大模型规模约每88天翻一倍,加速端侧部署高性能模型的可能性。

你可能也喜歡

为什么美国没有出现“花呗”、“借呗”?

马斯克近期提及X Money计划,再次凸显美国缺乏像微信支付或支付宝那样的一站式支付平台,同时也引发疑问:为何美国没有发展出类似“花呗”、“借呗”这样庞大的信用贷和消费贷产品? 美国金融底层存在显著需求。FDIC 2023年数据显示,约560万家庭无银行账户,1900万家庭银行服务不足;美联储2024年报告指出,年收入低于2.5万美元的成年人中22%无银行账户。这些人因资金不足或不信任银行系统而依赖现金,甚至不得不使用年化利率高达400%的发薪日贷款。此外,“先用后付”服务虽在年轻群体中增长,但用户规模相对较小,传统银行也在快速跟进类似功能。 信用卡体系在美国占据主导地位:约70%-80%成年人持有信用卡,未偿余额达1.28万亿美元,平均年化利率22.3%。2024年消费者支付了1600亿美元利息。信用卡生态依赖交叉补贴——无法全额还款的用户以高利率补贴全额还款者,形成“合法掠夺性贷款”体系。 美国未能发展出互联网小额信贷的原因是多方面的: 1. 严苛且碎片化的监管体系(联邦与州双轨制),合规成本极高,保护了银行而非消费者; 2. 严格的数据法律(如FCRA、CCPA)禁止科技公司将用户行为数据直接用于信贷风控; 3. 资本市场对互联网公司涉足金融业务给予估值惩罚,因金融业务被视为重资产、低增长; 4. 信贷定价权被大型银行集团(如JPMorgan、Bank of America)垄断,它们通过游说和行为惯性维持高利率信用卡生态。 综上,监管、数据法律、资本估值和银行巨头共同阻断了互联网小额信贷在美国的发展路径。

Odaily星球日报43 分鐘前

为什么美国没有出现“花呗”、“借呗”?

Odaily星球日报43 分鐘前

交易

現貨
合約

熱門文章

什麼是 $S$

理解 SPERO:全面概述 SPERO 簡介 隨著創新領域的不斷演變,web3 技術和加密貨幣項目的出現在塑造數字未來中扮演著關鍵角色。在這個動態領域中,SPERO(標記為 SPERO,$$s$)是一個引起關注的項目。本文旨在收集並呈現有關 SPERO 的詳細信息,以幫助愛好者和投資者理解其基礎、目標和在 web3 和加密領域內的創新。 SPERO,$$s$ 是什麼? SPERO,$$s$ 是加密空間中的一個獨特項目,旨在利用去中心化和區塊鏈技術的原則,創建一個促進參與、實用性和金融包容性的生態系統。該項目旨在以新的方式促進點對點互動,為用戶提供創新的金融解決方案和服務。 SPERO,$$s$ 的核心目標是通過提供增強用戶體驗的工具和平台來賦能個人。這包括使交易方式更加靈活、促進社區驅動的倡議,以及通過去中心化應用程序(dApps)創造金融機會的途徑。SPERO,$$s$ 的基本願景圍繞包容性展開,旨在彌合傳統金融中的差距,同時利用區塊鏈技術的優勢。 誰是 SPERO,$$s$ 的創建者? SPERO,$$s$ 的創建者身份仍然有些模糊,因為公開可用的資源對其創始人提供的詳細背景信息有限。這種缺乏透明度可能源於該項目對去中心化的承諾——這是一種許多 web3 項目所共享的精神,優先考慮集體貢獻而非個人認可。 通過將討論重心放在社區及其共同目標上,SPERO,$$s$ 體現了賦能的本質,而不特別突出某些個體。因此,理解 SPERO 的精神和使命比識別單一創建者更為重要。 誰是 SPERO,$$s$ 的投資者? SPERO,$$s$ 得到了來自風險投資家到天使投資者的多樣化投資者的支持,他們致力於促進加密領域的創新。這些投資者的關注點通常與 SPERO 的使命一致——優先考慮那些承諾社會技術進步、金融包容性和去中心化治理的項目。 這些投資者通常對不僅提供創新產品,還對區塊鏈社區及其生態系統做出積極貢獻的項目感興趣。這些投資者的支持強化了 SPERO,$$s$ 作為快速發展的加密項目領域中的一個重要競爭者。 SPERO,$$s$ 如何運作? SPERO,$$s$ 採用多面向的框架,使其與傳統的加密貨幣項目區別開來。以下是一些突顯其獨特性和創新的關鍵特徵: 去中心化治理:SPERO,$$s$ 整合了去中心化治理模型,賦予用戶積極參與決策過程的權力,關於項目的未來。這種方法促進了社區成員之間的擁有感和責任感。 代幣實用性:SPERO,$$s$ 使用其自己的加密貨幣代幣,旨在在生態系統內部提供多種功能。這些代幣使交易、獎勵和平台上提供的服務得以促進,增強了整體參與度和實用性。 分層架構:SPERO,$$s$ 的技術架構支持模塊化和可擴展性,允許在項目發展過程中無縫整合額外的功能和應用。這種適應性對於在不斷變化的加密環境中保持相關性至關重要。 社區參與:該項目強調社區驅動的倡議,採用激勵合作和反饋的機制。通過培養強大的社區,SPERO,$$s$ 能夠更好地滿足用戶需求並適應市場趨勢。 專注於包容性:通過提供低交易費用和用戶友好的界面,SPERO,$$s$ 旨在吸引多樣化的用戶群體,包括那些以前可能未曾參與加密領域的個體。這種對包容性的承諾與其通過可及性賦能的總體使命相一致。 SPERO,$$s$ 的時間線 理解一個項目的歷史提供了對其發展軌跡和里程碑的關鍵見解。以下是建議的時間線,映射 SPERO,$$s$ 演變中的重要事件: 概念化和構思階段:形成 SPERO,$$s$ 基礎的初步想法被提出,與區塊鏈行業內的去中心化和社區聚焦原則密切相關。 項目白皮書的發布:在概念階段之後,發布了一份全面的白皮書,詳細說明了 SPERO,$$s$ 的願景、目標和技術基礎設施,以吸引社區的興趣和反饋。 社區建設和早期參與:積極進行外展工作,建立早期採用者和潛在投資者的社區,促進圍繞項目目標的討論並獲得支持。 代幣生成事件:SPERO,$$s$ 進行了一次代幣生成事件(TGE),向早期支持者分發其原生代幣,並在生態系統內建立初步流動性。 首次 dApp 上線:與 SPERO,$$s$ 相關的第一個去中心化應用程序(dApp)上線,允許用戶參與平台的核心功能。 持續發展和夥伴關係:對項目產品的持續更新和增強,包括與區塊鏈領域其他參與者的戰略夥伴關係,使 SPERO,$$s$ 成為加密市場中一個具有競爭力和不斷演變的參與者。 結論 SPERO,$$s$ 是 web3 和加密貨幣潛力的見證,能夠徹底改變金融系統並賦能個人。憑藉對去中心化治理、社區參與和創新設計功能的承諾,它為更具包容性的金融環境鋪平了道路。 與任何在快速發展的加密領域中的投資一樣,潛在的投資者和用戶都被鼓勵進行徹底研究,並對 SPERO,$$s$ 的持續發展進行深思熟慮的參與。該項目展示了加密行業的創新精神,邀請人們進一步探索其無數可能性。儘管 SPERO,$$s$ 的旅程仍在展開,但其基礎原則確實可能影響我們在互聯網數字生態系統中如何與技術、金融和彼此互動的未來。

85 人學過發佈於 2024.12.17更新於 2024.12.17

什麼是 $S$

什麼是 AGENT S

Agent S:Web3中自主互動的未來 介紹 在不斷演變的Web3和加密貨幣領域,創新不斷重新定義個人如何與數字平台互動。Agent S是一個開創性的項目,承諾通過其開放的代理框架徹底改變人機互動。Agent S旨在簡化複雜任務,為人工智能(AI)提供變革性的應用,鋪平自主互動的道路。本詳細探索將深入研究該項目的複雜性、其獨特特徵以及對加密貨幣領域的影響。 什麼是Agent S? Agent S是一個突破性的開放代理框架,專門設計用來解決計算機任務自動化中的三個基本挑戰: 獲取特定領域知識:該框架智能地從各種外部知識來源和內部經驗中學習。這種雙重方法使其能夠建立豐富的特定領域知識庫,提升其在任務執行中的表現。 長期任務規劃:Agent S採用經驗增強的分層規劃,這是一種戰略方法,可以有效地分解和執行複雜任務。此特徵顯著提升了其高效和有效地管理多個子任務的能力。 處理動態、不均勻的界面:該項目引入了代理-計算機界面(ACI),這是一種創新的解決方案,增強了代理和用戶之間的互動。利用多模態大型語言模型(MLLMs),Agent S能夠無縫導航和操作各種圖形用戶界面。 通過這些開創性特徵,Agent S提供了一個強大的框架,解決了自動化人機互動中涉及的複雜性,為AI及其他領域的無數應用奠定了基礎。 誰是Agent S的創建者? 儘管Agent S的概念根本上是創新的,但有關其創建者的具體信息仍然難以捉摸。創建者目前尚不清楚,這突顯了該項目的初期階段或戰略選擇將創始成員保密。無論是否匿名,重點仍然在於框架的能力和潛力。 誰是Agent S的投資者? 由於Agent S在加密生態系統中相對較新,關於其投資者和財務支持者的詳細信息並未明確記錄。缺乏對支持該項目的投資基礎或組織的公開見解,引發了對其資金結構和發展路線圖的質疑。了解其支持背景對於評估該項目的可持續性和潛在市場影響至關重要。 Agent S如何運作? Agent S的核心是尖端技術,使其能夠在多種環境中有效運作。其運營模型圍繞幾個關鍵特徵構建: 類人計算機互動:該框架提供先進的AI規劃,力求使與計算機的互動更加直觀。通過模仿人類在任務執行中的行為,承諾提升用戶體驗。 敘事記憶:用於利用高級經驗,Agent S利用敘事記憶來跟蹤任務歷史,從而增強其決策過程。 情節記憶:此特徵為用戶提供逐步指導,使框架能夠在任務展開時提供上下文支持。 支持OpenACI:Agent S能夠在本地運行,使用戶能夠控制其互動和工作流程,與Web3的去中心化理念相一致。 與外部API的輕鬆集成:其多功能性和與各種AI平台的兼容性確保了Agent S能夠無縫融入現有技術生態系統,成為開發者和組織的理想選擇。 這些功能共同促成了Agent S在加密領域的獨特地位,因為它以最小的人類干預自動化複雜的多步任務。隨著項目的發展,其在Web3中的潛在應用可能重新定義數字互動的展開方式。 Agent S的時間線 Agent S的發展和里程碑可以用一個時間線來概括,突顯其重要事件: 2024年9月27日:Agent S的概念在一篇名為《一個像人類一樣使用計算機的開放代理框架》的綜合研究論文中推出,展示了該項目的基礎工作。 2024年10月10日:該研究論文在arXiv上公開,提供了對框架及其基於OSWorld基準的性能評估的深入探索。 2024年10月12日:發布了一個視頻演示,提供了對Agent S能力和特徵的視覺洞察,進一步吸引潛在用戶和投資者。 這些時間線上的標記不僅展示了Agent S的進展,還表明了其對透明度和社區參與的承諾。 有關Agent S的要點 隨著Agent S框架的持續演變,幾個關鍵特徵脫穎而出,強調其創新性和潛力: 創新框架:旨在提供類似人類互動的直觀計算機使用,Agent S為任務自動化帶來了新穎的方法。 自主互動:通過GUI自主與計算機互動的能力標誌著向更智能和高效的計算解決方案邁進了一步。 複雜任務自動化:憑藉其強大的方法論,能夠自動化複雜的多步任務,使過程更快且更少出錯。 持續改進:學習機制使Agent S能夠從過去的經驗中改進,不斷提升其性能和效率。 多功能性:其在OSWorld和WindowsAgentArena等不同操作環境中的適應性確保了它能夠服務於廣泛的應用。 隨著Agent S在Web3和加密領域中的定位,其增強互動能力和自動化過程的潛力標誌著AI技術的一次重大進步。通過其創新框架,Agent S展現了數字互動的未來,為各行各業的用戶承諾提供更無縫和高效的體驗。 結論 Agent S代表了AI與Web3結合的一次大膽飛躍,具有重新定義我們與技術互動方式的能力。儘管仍處於早期階段,但其應用的可能性廣泛且引人入勝。通過其全面的框架解決關鍵挑戰,Agent S旨在將自主互動帶到數字體驗的最前沿。隨著我們深入加密貨幣和去中心化的領域,像Agent S這樣的項目無疑將在塑造技術和人機協作的未來中發揮關鍵作用。

677 人學過發佈於 2025.01.14更新於 2025.01.14

什麼是 AGENT S

如何購買S

歡迎來到HTX.com!在這裡,購買Sonic (S)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Sonic (S)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Sonic (S)購買Sonic (S)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Sonic (S)在HTX的現貨市場輕鬆交易Sonic (S)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

1.4k 人學過發佈於 2025.01.15更新於 2025.03.21

如何購買S

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 S (S)幣價的意見。

活动图片