清华2年前预言，正成为全球共识Meta等三大AI机构已得出同一结论

marsbit发布于2026-04-13更新于2026-04-13

文章摘要

清华团队两年前提出的AI“密度定律”正获全球验证。该定律指出，达到特定智能水平所需模型参数量每3.5个月下降一半，意味着AI能力呈指数级提升。近期，Meta和METR两家机构分别从训练算力效率（节省90%算力）和任务时长能力（每88.6天翻倍）两个独立角度得出相同结论，其数据曲线与密度定律高度吻合。密度定律预示三大行业变革：推理成本加速下降（部分场景一年内降幅达400倍）、端侧智能爆发（手机或笔记本将能运行当前顶级模型），以及大模型开发策略从“堆参数”转向“提密度”。提出该理论的面壁智能已通过MiniCPM系列模型持续验证此规律，其开源模型下载量超2400万次。此次跨机构、跨方法的共识印证了中国AI研究的前瞻性，标志着AI发展进入新范式加速阶段。

【导读】太疯狂了!Meta和METR刚测出的AI进化数据,与中国团队两年前提出的「密度定律」完美重合。硅谷猛然回头,发现中国研究者在这条路上已领先两年!

全球三家最严肃的AI研究机构,过去一周集体撞车了!

4月3日,美国研究机构METR悄悄更新了一份技术报告,核心结论压成一句话。

AI能力每88.6天翻倍一次。

5天后,4月8日,Meta超级智能实验室发布全新模型Muse Spark,公开了一条内部叫做scaling ladder的训练效率曲线,结论也是一句话。

要追上一年前Llama 4 Maverick的性能,新模型只需要不到十分之一的训练算力。

一份测任务时长,一份测训练算力。两家机构没有任何往来,研究方法毫无重合。

但当两条曲线被换算到同一坐标系里,斜率几乎完全重合。

到这里,事情已经够离谱了。

更离谱的是,这条曲线,被一个中国团队两年前就完整地画出来过,还登上了Nature子刊。

它叫密度定律。

两年前,有人提前画过这条线

这个概念最早出现在一篇叫「Densing Law of LLMs」的论文里。

作者是面壁智能和清华大学的联合团队,孙茂松和刘知远两位教授领衔,第一作者是博士生肖朝军。

论文2024年12月挂上arXiv,2025年11月被Nature Machine Intelligence接收。

论文地址:https://arxiv.org/abs/2412.04315

论文地址:https://www.nature.com/articles/s42256-025-01137-0

论文的核心判断只有一句话。

模型智能密度随时间呈指数级增强,达到特定智能水平所需的参数量,每3.5个月下降一半。

放在2024年底,这话听上去有点过激。

那时全行业都在崇拜scaling law。OpenAI在堆模型,Anthropic在堆模型,Meta也在堆模型。

所有人都觉得参数越大智能越强,把GPU烧到极致才是正道。

但研究团队不这么看。

他们把当时所有有影响力的开源基础模型,从Llama-1一路到Gemma-2、MiniCPM-3,总共51个模型都放进了同一把尺子里去量。

五大基准跑完,结果是几乎完美的指数关系,R2达到0.934。

考虑到大模型评测很容易被数据污染干扰,他们又用一个新构建的污染过滤数据集MMLU-CF重测了一次。R2=0.953。

两次拟合都拿到了接近1的R2。统计学上,这几乎不可能是巧合。

换句话说就是,这两年发布的每一个主流开源模型,不管来自哪个团队、用什么架构,都落在了同一条「每3.5个月翻倍」的指数线上。

到这里,故事还只是「一个中国团队提出了一个看上去很激进的经验规律」。

真正让这件事变成一个「时刻」的,是接下来这小半年发生的事。

三家机构,三种方法,同一个斜率

把面壁、Meta、METR三方的结论摊开看。

面壁的密度定律衡量的是「同样的智能水平需要多少参数」。结论是参数需求每3.5个月减半。
Meta的scaling ladder衡量的是「同样的智能水平需要多少训练算力」。结论是Muse Spark比一年前的Llama 4 Maverick节省了一个数量级。
METR的时间跨度报告衡量的是「同样的模型能搞定多长任务」。结论是任务时长每88.6天翻倍。

三把尺子。三个学术机构。三种没有任何重合的研究路径。

但当所有数字被换算到同一坐标系里看时,它们的曲线斜率几乎完全重合。

这事最容易被忽略的一点是,密度定律是这三者里最早提出的。比Meta的scaling ladder早了近两年,比METR的完整建模也早了一年多。

而当Meta在四月初的发布博客里画出那条scaling ladder时,他们大概自己都没意识到。这张图的形状,和2024年北京一个学术会议PPT上的曲线,几乎是同一条线。

什么样的观察,才配得上「定律」两个字

在科学界,有一套不成文的标准,来判断一条经验观察是否有资格被叫做「定律」。

不是看数据有多漂亮,是看它能不能在多个独立的测量系统下同时成立。

摩尔定律之所以是定律,因为半导体行业从光刻精度、晶体管密度、单位算力成本三个完全不同的维度,几十年来一遍遍验证过它。

密度定律走的是同一条路。

它最初只是来自单一团队的一条拟合曲线。到Nature子刊接收时,它已经能在污染过滤后的数据集上重现。到这个月,它在Meta的训练数据和METR的任务评测里又被两次独立验证。

放在更大的坐标系里看,这一刻像极了1880年代电力刚进入纽约的时候。

那时也是几个不同的发明家、不同的工程师、不同的城市,各自在搞各自的电网。直到有人把所有项目的发展曲线画在一张纸上,人们才反应过来。这不是几个零散的工程进步,这是一个新时代正在悄悄铺开。

只是这一次,从论文发表到被全球同行验证,只用了不到一年。

三个推论,每一个都在改写行业假设

如果密度定律站得住脚,它会同时改写很多东西。

第一,推理成本会比所有人预期的都崩得更快。

密度定律的一个推论是,达到同样性能的LLM,推理成本大概每2.6个月减半。

如今,这个降幅已经被现实超过了。

Epoch AI最新追踪数据显示,达到Claude 3.5 Sonnet性能水平的LLM,过去一年token价格降了400倍。同档位性能的最快降幅触到900倍/年。

2022年底GPT-3.5开价20美元/百万token那种水平,今天Mistral Nemo只要0.02美元,便宜了1000倍,模型还更强。

回头来看,论文里的预测还是保守了。

第二,端侧智能的爆发点,比所有人预想的都近。

把密度定律和摩尔定律相乘,会得到一个更刺激的数字。

按目前估算,在同价格芯片上能跑的最大有效模型规模,大约每88天翻一倍。

这个数字和METR算出的88.6天几乎一致。两家完全不同的推算路径,在小数点后撞了车。

未来三五年,在一台普通笔记本甚至一部手机上跑当下顶级GPT级别模型这件事,可能不再是科幻。

第三,大模型行业的最优策略,正在悄悄反转。

过去三年,行业对scaling law的理解一直停留在「堆参数堆数据」

但密度定律给出了一个反直觉的判断。在密度持续指数增长的前提下,任何状态的最强模型都只有几个月的最优窗口期。

砸全部资源去训一个更大的模型,然后等三个月被一个体积一半的新模型超越,在经济账上是不划算的。

真正可持续的路,是把资源砸在密度本身的提升上。更好的架构,更高质量的数据,更聪明的训练算法。

面壁,一直在沿着自己画的尺子走

值得说一句的是,密度定律不是一篇发完就结束的论文。

提出这套理论的面壁智能,过去两年一直在用自家的「小钢炮」MiniCPM系列模型验证它。

MiniCPM-1-2.4B在2024年2月发布的时候,跑分能打平或超过2023年9月的Mistral-7B。也就是说,四个月时间,35%的参数,达到了同等性能。

这个数字被直接写进了Nature子刊那篇论文里,作为密度定律的第一个实证案例。

从那之后,小钢炮系列一路开源,覆盖10B以下参数的文本、多模态、语音、全模态四大方向。这个开源完整度,在国内除了阿里之外,只有面壁一家做到。

到目前为止,小钢炮系列在全球的开源下载量已经突破2400万次。

它不是行业里最大的模型。但它是行业里第一个把「密度优先」当作公司方法论来执行的团队。

而当Meta和METR在2026年4月这一周用各自的方式验证密度定律时,这家2024年就开始按这套方法论训练模型的中国公司,其实已经领先了两年的工程经验。

这一次,中国研究者站在了曲线的起点

一个中国研究团队两年前提出的理论框架,正在被Meta、METR这些海外最严肃的机构,用他们各自的方式,一次次重新发现。

这件事的份量,可能需要一点时间才能完全理解。

它不是一个「我们也行」的故事。它是一个「我们更早一点看见」的故事。

科学史上这样的瞬间不算多。一个在2024年被怀疑的判断,在2026年变成了多个独立证据指向的同一条曲线。

这种跨地域、跨方法、跨机构的「不约而同」,在物理学里发生过几次,每一次都标志着一个旧范式的终结和一个新范式的开始。

中国AI研究者这一次站在了那个起点上。

而那条曲线,还在以每88天翻一倍的速度往上走。

参考资料:

面壁智能首创的「密度定律」,获 Meta 等海外顶级机构认可

https://arxiv.org/abs/2412.04315

https://www.nature.com/articles/s42256-025-01137-0

https://metr.org/blog/2026-1-29-time-horizon-1-1/

https://ai.meta.com/blog/introducing-muse-spark-msl/

本文来自微信公众号“新智元”,编辑:好困桃子

你可能也喜欢

因Coldcard遭黑客攻击，近期比特币钱包最大规模被盗事件引发新一轮损失！损失持续攀升

Galaxy Research报告称，针对Coldcard硬件钱包的第三波攻击已发生，此次造成207.7294 BTC损失，使总损失增至约1367.05 BTC（约8860万美元），涉及4585个地址。前两波攻击在区块链行为上相似，疑似同一攻击者所为，但第三波在多个可测特征上显著不同：它为每个受害者创建独立地址、针对P2WSH而非P2WPKH地址、平均每次汇入6.37个受害地址，且仅扫描标准派生路径。这些差异可能是原攻击者升级工具以混淆追踪，也可能是漏洞公开后出现了新的攻击者。目前，被盗BTC仍存放在攻击者地址中未转移。分析显示，损失地址多为余额低于1 BTC的个人钱包，但大余额地址贡献了主要损失金额。存在漏洞的Coldcard固件发布于2021年3月17日，所有被盗BTC均在此后生成。

cryptonews.ru1分钟前

因Coldcard遭黑客攻击，近期比特币钱包最大规模被盗事件引发新一轮损失！损失持续攀升

cryptonews.ru1分钟前

特朗普媒体再抛售2628枚BTC，持有量降至4261枚

特朗普媒体与科技集团再度出售2,628枚比特币，价值约1.65亿美元，将其比特币持仓减少至4,261枚，当前价值约2.698亿美元。据区块链数据分析，该公司在过去七个月内已累计出售7,281枚比特币，总价值约5.45亿美元，平均出售价格为每枚74,855美元。此次出售正值与特朗普相关的加密业务面临更广泛的伦理审查之际，美国立法者正在审议《数字资产市场清晰法案》，该法案涉及公职人员数字资产所有权的道德规则与潜在利益冲突。批评者指出，特朗普相关的加密项目，包括特朗普和梅拉尼娅主题 meme 币，凸显了政治影响力与私人加密利益之间的重叠问题。

cointelegraph21分钟前

cointelegraph21分钟前

福建晋江，一家存储超级独角兽静悄悄

近日，随着长鑫科技A股上市成为股王，同为国内三大存储芯片项目之一的福建晋华集成电路有限公司（晋华）重新进入公众视野。这家位于福建晋江的DRAM企业，自2016年成立起便肩负打破海外垄断的使命，却因2018年被美国列入实体清单并遭遇司法指控而陷入长达数年的沉寂。2024年2月，美国法院裁定其无罪，晋华才得以摆脱法律阴影。晋华的曲折发展与灵魂人物陈正坤密不可分。这位拥有美光与联电背景的工程师，怀揣自主开发DRAM的梦想加入晋华。公司初期通过与联电合作快速推进，但随后美光发起诉讼，指控技术窃密，导致晋华产线因设备禁运而停摆。在极端困难下，陈正坤带领团队改造国产设备、重构工艺，艰难维持运营。尽管最终赢得清白，但发展进度已被严重拖慢。目前，晋华专注于利基型DRAM市场，月产能约4万片，拥有千余项专利，但仍在美国实体清单限制之下。晋江这座以鞋服闻名的民营经济强市，为引入晋华这一“硬科技”项目投入巨资，并以政府基金、全链条配套和持续的政策支持，助力企业在制裁中生存下来。如今，以晋华为龙头，晋江已形成超千亿规模的集成电路产业集群。在全球AI驱动存储繁荣的周期中，晋华虽规模尚小，但其在封锁中重建的经历，已成为中国存储产业自主攻坚的缩影。

marsbit1小时前

marsbit1小时前

38GW电力缺口下，比特币矿场为何突然成了AI算力的新入口？

当AI数据中心竞争的核心转向电力资源时，曾经高度依赖电力的比特币矿场正凭借其现成的电网接入、土地和电力设施，转型为AI算力基础设施供应商。摩根士丹利预测，美国2026-2028年数据中心电力缺口可能高达38GW，而改造旧矿场有望贡献10-19GW的容量。一批北美上市矿企，如TeraWulf、Hut 8等，正从“挖矿”转向成为“带电机房壳体提供商”。它们不再只是出售算力，而是向云厂商和AI公司提供已具备电力、土地和基础建筑的场地，帮助客户更快地部署大规模算力。这一转型的关键在于，获取新的电网接入许可可能需要等待5-7年，而现成矿场所拥有的已获批电力容量变得极其稀缺。因此，旧矿场的核心价值正从生产比特币，转变为提供通往AI算力的“电力入口”，其资产价值面临重估。

华尔街日报1小时前

华尔街日报1小时前

迈克尔·塞勒："我们从未说过永远不会出售比特币"

微策略公司主席迈克尔·塞勒表示，公司从未承诺永不卖出其持有的比特币，但预计在长期内仍将保持比特币的净买家身份。此番言论是针对有报道称微策略新获准出售最多价值50亿美元比特币的回应。塞勒澄清，该出售许可并非新消息，而是公司早在6月29日就已公布的资本管理体系的一部分。他指出，相关许可是为了特定目的而设，但并未强制公司必须出售比特币。他强调，公司没有宣布任何新的许可，且预期未来将继续净买入比特币。塞勒还说明，公司的比特币货币化计划并不要求出售比特币资产，并重申公司从未正式采纳“永不卖出比特币”的政策。

cryptonews.ru2小时前

cryptonews.ru2小时前

交易

现货

清华2年前预言，正成为全球共识Meta等三大AI机构已得出同一结论

文章摘要

两年前,有人提前画过这条线

三家机构,三种方法,同一个斜率

什么样的观察,才配得上「定律」两个字

三个推论,每一个都在改写行业假设

面壁,一直在沿着自己画的尺子走

这一次,中国研究者站在了曲线的起点

热门币种推荐

相关问答

你可能也喜欢

因Coldcard遭黑客攻击，近期比特币钱包最大规模被盗事件引发新一轮损失！损失持续攀升

特朗普媒体再抛售2628枚BTC，持有量降至4261枚

福建晋江，一家存储超级独角兽静悄悄

38GW电力缺口下，比特币矿场为何突然成了AI算力的新入口？

迈克尔·塞勒："我们从未说过永远不会出售比特币"

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签