清华2年前预言，正成为全球共识Meta等三大AI机构已得出同一结论

marsbit发布于2026-04-13更新于2026-04-13

文章摘要

清华团队两年前提出的AI“密度定律”正获全球验证。该定律指出，达到特定智能水平所需模型参数量每3.5个月下降一半，意味着AI能力呈指数级提升。近期，Meta和METR两家机构分别从训练算力效率（节省90%算力）和任务时长能力（每88.6天翻倍）两个独立角度得出相同结论，其数据曲线与密度定律高度吻合。密度定律预示三大行业变革：推理成本加速下降（部分场景一年内降幅达400倍）、端侧智能爆发（手机或笔记本将能运行当前顶级模型），以及大模型开发策略从“堆参数”转向“提密度”。提出该理论的面壁智能已通过MiniCPM系列模型持续验证此规律，其开源模型下载量超2400万次。此次跨机构、跨方法的共识印证了中国AI研究的前瞻性，标志着AI发展进入新范式加速阶段。

【导读】太疯狂了!Meta和METR刚测出的AI进化数据,与中国团队两年前提出的「密度定律」完美重合。硅谷猛然回头,发现中国研究者在这条路上已领先两年!

全球三家最严肃的AI研究机构,过去一周集体撞车了!

4月3日,美国研究机构METR悄悄更新了一份技术报告,核心结论压成一句话。

AI能力每88.6天翻倍一次。

5天后,4月8日,Meta超级智能实验室发布全新模型Muse Spark,公开了一条内部叫做scaling ladder的训练效率曲线,结论也是一句话。

要追上一年前Llama 4 Maverick的性能,新模型只需要不到十分之一的训练算力。

一份测任务时长,一份测训练算力。两家机构没有任何往来,研究方法毫无重合。

但当两条曲线被换算到同一坐标系里,斜率几乎完全重合。

到这里,事情已经够离谱了。

更离谱的是,这条曲线,被一个中国团队两年前就完整地画出来过,还登上了Nature子刊。

它叫密度定律。

两年前,有人提前画过这条线

这个概念最早出现在一篇叫「Densing Law of LLMs」的论文里。

作者是面壁智能和清华大学的联合团队,孙茂松和刘知远两位教授领衔,第一作者是博士生肖朝军。

论文2024年12月挂上arXiv,2025年11月被Nature Machine Intelligence接收。

论文地址:https://arxiv.org/abs/2412.04315

论文地址:https://www.nature.com/articles/s42256-025-01137-0

论文的核心判断只有一句话。

模型智能密度随时间呈指数级增强,达到特定智能水平所需的参数量,每3.5个月下降一半。

放在2024年底,这话听上去有点过激。

那时全行业都在崇拜scaling law。OpenAI在堆模型,Anthropic在堆模型,Meta也在堆模型。

所有人都觉得参数越大智能越强,把GPU烧到极致才是正道。

但研究团队不这么看。

他们把当时所有有影响力的开源基础模型,从Llama-1一路到Gemma-2、MiniCPM-3,总共51个模型都放进了同一把尺子里去量。

五大基准跑完,结果是几乎完美的指数关系,R2达到0.934。

考虑到大模型评测很容易被数据污染干扰,他们又用一个新构建的污染过滤数据集MMLU-CF重测了一次。R2=0.953。

两次拟合都拿到了接近1的R2。统计学上,这几乎不可能是巧合。

换句话说就是,这两年发布的每一个主流开源模型,不管来自哪个团队、用什么架构,都落在了同一条「每3.5个月翻倍」的指数线上。

到这里,故事还只是「一个中国团队提出了一个看上去很激进的经验规律」。

真正让这件事变成一个「时刻」的,是接下来这小半年发生的事。

三家机构,三种方法,同一个斜率

把面壁、Meta、METR三方的结论摊开看。

面壁的密度定律衡量的是「同样的智能水平需要多少参数」。结论是参数需求每3.5个月减半。
Meta的scaling ladder衡量的是「同样的智能水平需要多少训练算力」。结论是Muse Spark比一年前的Llama 4 Maverick节省了一个数量级。
METR的时间跨度报告衡量的是「同样的模型能搞定多长任务」。结论是任务时长每88.6天翻倍。

三把尺子。三个学术机构。三种没有任何重合的研究路径。

但当所有数字被换算到同一坐标系里看时,它们的曲线斜率几乎完全重合。

这事最容易被忽略的一点是,密度定律是这三者里最早提出的。比Meta的scaling ladder早了近两年,比METR的完整建模也早了一年多。

而当Meta在四月初的发布博客里画出那条scaling ladder时,他们大概自己都没意识到。这张图的形状,和2024年北京一个学术会议PPT上的曲线,几乎是同一条线。

什么样的观察,才配得上「定律」两个字

在科学界,有一套不成文的标准,来判断一条经验观察是否有资格被叫做「定律」。

不是看数据有多漂亮,是看它能不能在多个独立的测量系统下同时成立。

摩尔定律之所以是定律,因为半导体行业从光刻精度、晶体管密度、单位算力成本三个完全不同的维度,几十年来一遍遍验证过它。

密度定律走的是同一条路。

它最初只是来自单一团队的一条拟合曲线。到Nature子刊接收时,它已经能在污染过滤后的数据集上重现。到这个月,它在Meta的训练数据和METR的任务评测里又被两次独立验证。

放在更大的坐标系里看,这一刻像极了1880年代电力刚进入纽约的时候。

那时也是几个不同的发明家、不同的工程师、不同的城市,各自在搞各自的电网。直到有人把所有项目的发展曲线画在一张纸上,人们才反应过来。这不是几个零散的工程进步,这是一个新时代正在悄悄铺开。

只是这一次,从论文发表到被全球同行验证,只用了不到一年。

三个推论,每一个都在改写行业假设

如果密度定律站得住脚,它会同时改写很多东西。

第一,推理成本会比所有人预期的都崩得更快。

密度定律的一个推论是,达到同样性能的LLM,推理成本大概每2.6个月减半。

如今,这个降幅已经被现实超过了。

Epoch AI最新追踪数据显示,达到Claude 3.5 Sonnet性能水平的LLM,过去一年token价格降了400倍。同档位性能的最快降幅触到900倍/年。

2022年底GPT-3.5开价20美元/百万token那种水平,今天Mistral Nemo只要0.02美元,便宜了1000倍,模型还更强。

回头来看,论文里的预测还是保守了。

第二,端侧智能的爆发点,比所有人预想的都近。

把密度定律和摩尔定律相乘,会得到一个更刺激的数字。

按目前估算,在同价格芯片上能跑的最大有效模型规模,大约每88天翻一倍。

这个数字和METR算出的88.6天几乎一致。两家完全不同的推算路径,在小数点后撞了车。

未来三五年,在一台普通笔记本甚至一部手机上跑当下顶级GPT级别模型这件事,可能不再是科幻。

第三,大模型行业的最优策略,正在悄悄反转。

过去三年,行业对scaling law的理解一直停留在「堆参数堆数据」

但密度定律给出了一个反直觉的判断。在密度持续指数增长的前提下,任何状态的最强模型都只有几个月的最优窗口期。

砸全部资源去训一个更大的模型,然后等三个月被一个体积一半的新模型超越,在经济账上是不划算的。

真正可持续的路,是把资源砸在密度本身的提升上。更好的架构,更高质量的数据,更聪明的训练算法。

面壁,一直在沿着自己画的尺子走

值得说一句的是,密度定律不是一篇发完就结束的论文。

提出这套理论的面壁智能,过去两年一直在用自家的「小钢炮」MiniCPM系列模型验证它。

MiniCPM-1-2.4B在2024年2月发布的时候,跑分能打平或超过2023年9月的Mistral-7B。也就是说,四个月时间,35%的参数,达到了同等性能。

这个数字被直接写进了Nature子刊那篇论文里,作为密度定律的第一个实证案例。

从那之后,小钢炮系列一路开源,覆盖10B以下参数的文本、多模态、语音、全模态四大方向。这个开源完整度,在国内除了阿里之外,只有面壁一家做到。

到目前为止,小钢炮系列在全球的开源下载量已经突破2400万次。

它不是行业里最大的模型。但它是行业里第一个把「密度优先」当作公司方法论来执行的团队。

而当Meta和METR在2026年4月这一周用各自的方式验证密度定律时,这家2024年就开始按这套方法论训练模型的中国公司,其实已经领先了两年的工程经验。

这一次,中国研究者站在了曲线的起点

一个中国研究团队两年前提出的理论框架,正在被Meta、METR这些海外最严肃的机构,用他们各自的方式,一次次重新发现。

这件事的份量,可能需要一点时间才能完全理解。

它不是一个「我们也行」的故事。它是一个「我们更早一点看见」的故事。

科学史上这样的瞬间不算多。一个在2024年被怀疑的判断,在2026年变成了多个独立证据指向的同一条曲线。

这种跨地域、跨方法、跨机构的「不约而同」,在物理学里发生过几次,每一次都标志着一个旧范式的终结和一个新范式的开始。

中国AI研究者这一次站在了那个起点上。

而那条曲线,还在以每88天翻一倍的速度往上走。

参考资料:

面壁智能首创的「密度定律」,获 Meta 等海外顶级机构认可

https://arxiv.org/abs/2412.04315

https://www.nature.com/articles/s42256-025-01137-0

https://metr.org/blog/2026-1-29-time-horizon-1-1/

https://ai.meta.com/blog/introducing-muse-spark-msl/

本文来自微信公众号“新智元”,编辑:好困桃子

你可能也喜欢

英特尔暴涨20%，CPU在Agent时代重回舞台中央

英特尔股价盘后暴涨20%，因其2026财年Q1业绩远超预期：营收136亿美元（同比增7%），非GAAP每股收益0.29美元，超出分析师预期29倍。CEO表示，CPU正重新成为AI时代不可或缺的基础设施。数据中心与AI业务（DCAI）收入同比增长22%至51亿美元，创历史新高，呈现U形反转。管理层称，Xeon 6代处理器放量及AI基础设施更新周期推动增长，公司还将部分客户端CPU晶圆产能转移至数据中心，提升利润率。行业对比显示，2023年至2026年4月，英伟达股价指数达1023，AMD为406，英特尔为245。英特尔先跌后涨，反映出市场对AI算力需求结构的重新定价：从训练（GPU主导）转向推理与Agent阶段（CPU权重上升）。研究显示，Agent工作流中50%-90%的延迟取决于CPU处理。英特尔反弹始于2025年管理层更迭与战略调整：取消对标英伟达的Falcon Shores GPU项目，聚焦CPU核心优势。新CEO Lip-Bu Tan上任后，股价从22美元涨至78美元。此次财报是技术叙事与战略调整的财务兑现。

marsbit14分钟前

marsbit14分钟前

DeepSeek V4终于发布，打破最强闭源垄断，明确携手华为芯片

DeepSeek V4正式发布，推出Pro和Flash两个版本，均支持1M上下文长度，并全面开源。V4-Pro具备49B激活参数，在Agent能力、世界知识和推理性能上达到开源领域领先水平，体验优于Claude Sonnet 4.5，接近Opus 4.6非思考模式。V4-Flash为经济版，参数更小、响应更快，适合一般任务。新版本采用创新的注意力机制，显著降低计算和内存需求，实现百万上下文的标配化。API服务已更新，支持OpenAI和Anthropic接口，并计划于下半年兼容华为算力平台。 DeepSeek未回应此前市场传言，直接发布产品，强调“率道而行，端然正己”，展现出技术推进的坚定态度。模型已在Hugging Face和ModelScope平台开源，技术报告同步发布。

marsbit33分钟前

marsbit33分钟前

Tether 配合美国制裁冻结 3.44 亿涉案 USDT，稳定币「一键冻结权」再引争议

Tether配合美国财政部海外资产控制办公室（OFAC）及执法机构，于4月23日冻结了波场链上两个钱包地址，涉及3.44亿USDT，创下稳定币单次冻结金额最高纪录。冻结行动基于美国当局提供的情报，涉及规避制裁或非法活动，但未披露具体案件细节。Tether CEO表示此举旨在打击犯罪，并暗指竞争对手Circle在近期安全事件中反应迟缓。此次冻结发生在美国加大对伊朗制裁及加密货币用于非法资金流动的背景下。有分析指出，部分组织利用USDT规避制裁，规模近年急剧增长。不过，社区对冻结的具体关联性存疑，Nansen CEO分析认为被冻结地址与伊朗革命卫队的直接资金往来仅占0.4%。事件引发加密社区对“稳定币非真正私有”的批评，指出USDT内置黑名单机制，发行方可随时冻结资产。目前Tether已累计冻结超44亿美元，与全球超过340家执法机构合作。支持者则认为，这种机制提升了执法效率，凸显稳定币在合规方面的作用。

marsbit36分钟前

Tether 配合美国制裁冻结 3.44 亿涉案 USDT，稳定币「一键冻结权」再引争议

marsbit36分钟前

为什么美国没有出现“花呗”、“借呗”？

马斯克近期提及X Money计划，再次凸显美国缺乏像微信支付或支付宝那样的一站式支付平台，同时也引发疑问：为何美国没有发展出类似“花呗”、“借呗”这样庞大的信用贷和消费贷产品？美国金融底层存在显著需求。FDIC 2023年数据显示，约560万家庭无银行账户，1900万家庭银行服务不足；美联储2024年报告指出，年收入低于2.5万美元的成年人中22%无银行账户。这些人因资金不足或不信任银行系统而依赖现金，甚至不得不使用年化利率高达400%的发薪日贷款。此外，“先用后付”服务虽在年轻群体中增长，但用户规模相对较小，传统银行也在快速跟进类似功能。信用卡体系在美国占据主导地位：约70%-80%成年人持有信用卡，未偿余额达1.28万亿美元，平均年化利率22.3%。2024年消费者支付了1600亿美元利息。信用卡生态依赖交叉补贴——无法全额还款的用户以高利率补贴全额还款者，形成“合法掠夺性贷款”体系。美国未能发展出互联网小额信贷的原因是多方面的： 1. 严苛且碎片化的监管体系（联邦与州双轨制），合规成本极高，保护了银行而非消费者； 2. 严格的数据法律（如FCRA、CCPA）禁止科技公司将用户行为数据直接用于信贷风控； 3. 资本市场对互联网公司涉足金融业务给予估值惩罚，因金融业务被视为重资产、低增长； 4. 信贷定价权被大型银行集团（如JPMorgan、Bank of America）垄断，它们通过游说和行为惯性维持高利率信用卡生态。综上，监管、数据法律、资本估值和银行巨头共同阻断了互联网小额信贷在美国的发展路径。

Odaily星球日报42分钟前

Odaily星球日报42分钟前

“模型超市”越开越多：字节、阿里、腾讯竞相整合

近日，字节跳动火山引擎推出“方舟Coding Plan”，正式上线GLM-5.1，并集成Minimax、Kimi、DeepSeek等多款国产大模型，以每月40元或200元的套餐价格提供多模型调用服务，降低开发者试错成本。然而，用户反馈显示存在使用额度消耗过快、算力调度不足导致的响应延迟和错误等问题，影响实际开发体验。阿里云、腾讯云、百度智能云等厂商也纷纷推出类似“模型超市”服务，行业竞争从单一模型能力转向平台整合与生态服务能力。这一趋势引发了对独立模型公司“管道化”风险的讨论，即模型厂商可能丧失定价权和用户连接能力。智谱、月之暗面、MiniMax等公司正通过发展自治智能体、分散布局、深耕垂直场景等方式寻求突破。分析师认为，短期来看平台方可能占据更多话语权，但垂直领域的模型壁垒仍难以被完全替代。未来行业或走向更清晰的分工协作，而非简单吞并。

marsbit47分钟前

marsbit47分钟前

交易

现货

合约

清华2年前预言，正成为全球共识Meta等三大AI机构已得出同一结论

文章摘要

两年前,有人提前画过这条线

三家机构,三种方法,同一个斜率

什么样的观察,才配得上「定律」两个字

三个推论,每一个都在改写行业假设

面壁,一直在沿着自己画的尺子走

这一次,中国研究者站在了曲线的起点

相关问答

你可能也喜欢

英特尔暴涨20%，CPU在Agent时代重回舞台中央

DeepSeek V4终于发布，打破最强闭源垄断，明确携手华为芯片

Tether 配合美国制裁冻结 3.44 亿涉案 USDT，稳定币「一键冻结权」再引争议

为什么美国没有出现“花呗”、“借呗”？

“模型超市”越开越多：字节、阿里、腾讯竞相整合

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签