拖更三年,北大校友翁荔最新长文刷屏

marsbit发布于2026-06-26更新于2026-06-26

文章摘要

前OpenAI副总裁翁荔(Lilian Weng)发表了一篇关于AI扩展定律(Scaling Laws)的深度分析文章。文章指出,这条指导了AI行业数百亿美元投入的核心定律,远比人们想象的更为脆弱。 文章回顾了Scaling Laws的基本思想,即模型性能随规模扩大而可预测地提升。然而,OpenAI与DeepMind在关键问题上得出了相反结论:给定算力,资源应更多分配给模型还是数据?OpenAI的Kaplan团队认为模型增长应更快,而DeepMind的Chinchilla团队则认为应等比增长。后来研究发现,这一分歧源于参数统计口径的差异和实验规模不足,导致Kaplan的结论仅适用于小规模场景。 更关键的是,被行业广泛采纳的Chinchilla最优配比公式本身也存在方法论瑕疵。2024年有团队复现发现,其损失函数因取均值而非求和,导致优化器提前停止,输出并非最优解。此外,用于外推的关键参数精度不足,放大了误差。 文章进一步指出,经典Scaling Laws的根本前提——高质量数据无限供应——正在崩塌。数据重复训练不可避免,新研究引入了惩罚项来修正公式,并发现大模型对数据重复更敏感。这解释了行业为何转向强化学习、测试时计算和合成数据等新路径。 翁荔的博客以其清晰深入的技术解析著称,这篇文章历时三年完成。她于2025年联合创立了新公司Thinking Machines Lab。文章强调,下一代AI的进步不仅依赖算力规模,更取决于对这些基础定律细节更精确的理解与运用。

拖更了三年的博客,Lilian Weng终于发出来了。

就在刚刚,前OpenAI副总裁Lilian Weng一篇拖了三年多的长文刷屏了。

在这篇名为《Scaling Laws, Carefully》博客里,她直接把Scaling Laws从头拆到尾——

AI行业砸了数百亿美元押注的这条定律,远比任何人想象的脆弱。

一分钟速览:这篇万字长文讲了什么

一条公式管了全行业五年。Scaling Laws说「模型做大、数据喂多、算力堆够,性能就会按固定比例往上涨」。它让AI从玄学变成了能算账的生意,间接指挥了上千亿美金的流向。

OpenAI和DeepMind给出了相反的答案。同一个问题「算力预算怎么分配」,2020年OpenAI说模型该比数据涨得快,2022年DeepMind说两边得一起涨。后来发现,分歧的根源是一个参数统计口径的差异,加上实验规模不够大。

赢家的公式里也藏着bug。DeepMind那条被全行业照抄两年的最优配比,2024年被人逐行复现时发现:损失函数取了均值而不是求和,导致优化器提前停了,输出的参数根本不是最优解。

拿小模型的规律去预测大模型,要非常小心。这条曲线是在相对小的模型上拟合出来的,外推到万亿参数级别时,一个四舍五入的差别就能让结论差出一大截。博客里附了一个交互式模拟器,拖一下滑块就能亲眼看到。

还有个更根本的问题:数据快用完了。公式默认数据可以无限供应,但高质量文本是有限的。这也是为什么整个行业集体转向强化学习、测试时计算和合成数据。

一条直线,千亿美金

众所周知,Scaling Laws的核心可以简单地总结成一句话——

模型越大、数据越多、算力越猛,表现就越好。而且这个「越好」不是随机的,它有精确的数学规律。

把模型训练的损失画在对数坐标上,它随着模型参数量N、数据量D、算力C的增加,呈一条直线下降。

用公式写就是L(x) = E + A/x^α,其中x可以是N、D或C,E是理论最优损失(数据本身的熵),A和α是拟合出来的常数。

训练一个N参数的模型跑D个token,总算力C ≈ 6ND——前向传播2ND,反向传播4ND。

这条直线意味着性能提升是可预测的。

先跑几个小模型,拟合出那条直线,往右外推,就能预估大模型训出来的表现。不用真花几亿美元把大模型训完才知道它行不行。

在这之前,深度学习一直被讥讽为「炼金术」,知道什么有效,不知道为什么有效。

2020年OpenAI的Kaplan发表了这条幂律,第一次把玄学拽进了「可预测」的地界。

这就是所有大模型公司敢砸钱的底气。

但公式给出的最关键建议,给定算力预算,模型和数据怎么分配,OpenAI和DeepMind给出了相反的答案。

同一道题

OpenAI和DeepMind做出了相反的答案

2020年OpenAI的Kaplan团队得出的结论是:最优模型大小N_opt ∝ C^0.73。

翻译过来就是:算力翻10倍,5.5倍给模型、1.8倍给数据——模型涨得要比数据快得多。

这直接指导了GPT-3的训练方案。

1750亿参数的模型,只喂了3000亿个token(token是模型处理文本的最小单位,大约一个词对应1-2个token)。

按后来的标准看,这属于严重训练不足。

2022年DeepMind的Chinchilla团队得出了相反的结论:N_opt ∝ C^0.50,模型和数据应该等比增长。

工程师们后来把它提炼成一个张口就来的数字:最优token和参数比大约20:1。

然后DeepMind做了一场正面对决。

自家的Gopher,2800亿参数配3000亿token。Chinchilla,700亿参数配1.4万亿token。两个模型用了相同的算力。

Chinchilla全面碾压。

一个又小又「吃得多」的模型,把又大又「饿着」的对手打趴下了。

整个行业的共识因此翻转:从「把模型做大」变成「大多数模型都训练不足」。

0.73 vs 0.50,同一个问题,相反的答案,会让你把算力预算往两个完全不同的方向分配。

原因竟是一个「簿记问题」

2024年,两位研究者在机器学习顶刊TMLR发了一篇调和论文,把这个分歧追到了底。

结论让人哭笑不得。

第一个原因:两边数参数的方式不一样。

模型里有一类叫embedding的参数层,负责把文字转换成模型能理解的数字向量。小模型里这一层占总参数量的比例非常大,几千万参数的模型可能占到三分之一。

Kaplan在统计参数量时把embedding排除在外,Chinchilla则把它算进去了。

就这么一个参数统计口径的差异,就足以扭曲最终拟合出来的幂律指数。

他们给出了一个简洁的校正公式:N = N_\E + ω·N_\E^(1/3),其中N_\E是去掉embedding后的参数量,ω是常数。小模型时第二项占比大,embedding影响显著;模型越大,第二项趋近于零,两种数法殊途同归。

第二个原因:Kaplan的实验规模太小。

Kaplan测试的最大模型只到15亿参数,而Chinchilla的实验扫到了160亿以上。在对数坐标里,微小的拟合偏差在外推时会被急剧放大。

他们用统一的参数统计口径重新推导了Chinchilla的公式,发现了一个关键规律——

幂律指数会随着算力规模的增大而变化。在Kaplan的小规模实验范围内,指数确实接近0.73;但规模增大后,指数收敛到0.50。

Kaplan没有「错」,他在自己的实验范围内是对的。

但他把一个局部成立的规律,外推成了全局结论。

一个参数怎么数的簿记问题,加上实验规模不够大,就让两个顶级团队给出了相反的资源分配建议。

全行业照着这个结论调了两年的训练配方。

连赢家也有bug

Kaplan被Chinchilla纠正了,这是大家都知道的标准叙事。

但Weng往前走了一步——Chinchilla自己的方法论,也有问题。

Chinchilla论文用了三种独立方法交叉验证自己的结论:

方法1固定模型大小变数据量

方法2画等算力曲线(IsoFLOP profiles)

方法3直接对损失公式L(N,D) = E + A/N^α + B/D^β做参数拟合

三条路指向同一个结论,看起来非常扎实。

方法3的数学推导尤其优雅:在约束C ≈ 6ND下对L(N,D)求最优,可以得到闭合解N_opt ∝ (C/6)^(β/(α+β))。当α ≈ β时,指数约等于0.5,也就是模型和数据等比增长。这就是0.50的数学来源。

2024年,AI研究机构Epoch AI的团队从Chinchilla论文的图表中手动提取原始数据点,重新跑了方法3的拟合。

两个bug,一个比一个离谱。

Bug 1:损失函数取了均值而不是求和。

Chinchilla在拟合这五个参数时,需要最小化预测损失和实际损失之间的差距。

完整的优化目标如下:min Σ Huber_δ(log L̂(Nᵢ,Dᵢ) − log Lᵢ),其中Huber Loss是一种对异常值不敏感的损失函数(δ = 10⁻³),配合L-BFGS-B优化器来搜索最优解。

问题出在一个细节上:他们对每个样本的Huber Loss取了平均值(mean)而不是求和(sum)。几百个样本一平均,损失值被压缩到了极小的量级。

L-BFGS-B优化器有一个内置的收敛判据。当损失值足够小时自动停止。它看到这么小的数值,误以为已经收敛,直接停了。

优化器根本没有跑完。输出的参数不是真正的最优值。

Bug 2:关键参数只保留了两位小数。

Chinchilla论文里有两个控制幂律形状的核心指数,只保留到了小数点后两位。

看起来是无伤大雅的四舍五入。

但从这两个粗糙的数反推其他常数时,误差被指数级放大。最终的置信区间窄得不合理,窄到需要超过60万次实验才能达到的精度,而他们实际只跑了不到500次。

一个被全行业奉为圭臬的公式,背后藏着一个loss函数没跑完的bug,而且这个bug藏了整整两年。

Weng在博客里还附了一个交互式模拟器,三个滑块分别控制损失精度、损失噪声和拟合区间。

每动一下,拟合出来的Scaling Law就变一个样。

OpenAI的结论有局部性偏差,DeepMind的结论有方法论瑕疵。AI行业最重要的学术争论,双方都有裂缝。

数据快烧完了

前面三节讲的都是拟合方法的问题,参数怎么数、损失怎么算、精度取几位。

但即使这些问题全部修好,经典Scaling Laws还有一个更根本的隐患——

它假设每个 训练数据 都是唯一的,不重复、不训多轮,默认你有无限的数据。

现实是,高质量文本数据预计在2026到2028年之间就会被各大实验室扫荡殆尽。

数据重复训练不可避免,经典公式的前提正在崩塌。

2023年的一项大规模实验训了约400个模型,从千万到90亿参数,最多重复训练1500轮。

核心思路是引入「有效数据量」的概念来替代实际数据量——

如果你有U条唯一数据重复了R轮,有效数据量并不是U×R,而是按D_eff = U·(1 - e^(-R))的指数衰减曲线折算。第一轮重复还能学到不少新东西,到第五轮、第十轮,边际学习收益趋近于零。

他们还发现了一个反直觉的结论:多余的参数比重复的数据「贬值」得更快。也就是,预算有限时,与其加大模型,不如多跑几轮训练更划算。

2026年5月的一篇新论文换了思路。

他们不折算有效数据量,而是直接在经典损失公式后面加了一个显式的过拟合惩罚项——模型重复看同一批数据越多次,惩罚越大,而且这个惩罚和模型大小挂钩。

他们的完整公式长这样:

最后那个红色的惩罚项是关键。

R是重复次数,N/U是模型参数量和唯一数据量的比值(模型相对于数据有多「过剩」),P、δ、κ都是从实验中拟合出来的。重复越多、模型越大,惩罚越重。

这篇论文的核心发现是:大模型对数据重复更敏感。同样把数据重复训练10轮,一个5亿参数的模型可能还扛得住,但一个50亿参数的模型性能下降会严重得多。

另一个工程上直接有用的发现为:加强权重衰减(weight decay)可以显著缓解重复训练带来的过拟合。

这也是为什么2025到2026年,整个行业的注意力集体转向了三条绕过数据墙的路——

强化学习,DeepSeek R1、OpenAI o系列,让模型在数学和编程等可验证的任务上自我博弈,产生训练信号。

测试时计算,不增加训练成本,让模型在回答问题时多「想」几步来换取更好的表现。

合成数据,用现有的强模型生成新数据来训练下一代模型。

三条路的潜台词一样:纯粹靠「堆规模」的那条幂律,已经不够用了。

从北大到OpenAI到自己的公司

Lilian Weng,北大本科,印第安纳大学伯明顿分校博士。

有意思的是,她的博士方向不是深度学习,而是网络科学与复杂系统,研究的是信息在社交网络里怎么传播。

她毕业后先去了Dropbox做数据科学,又去了金融科技公司Affirm,2018年才加入OpenAI。

来到OpenAI后,Weng参与的第一个项目是机器人。那只花了两年学会解魔方的机械手Dactyl,她是核心贡献者之一。

后来转去搭建应用研究团队,GPT-4发布后被委任组建Safety Systems团队,到她离开时这个团队已有80多位科学家、工程师和政策专家。

2024年8月头衔升为VP of Research and Safety,三个月后宣布离开。

2017年,Weng刚接触深度学习不久,开了一个叫Lil'Log的个人博客,最初只是为了整理自己的学习笔记。

她曾说过,「把一个概念讲清楚,是检验自己是否真正理解它的最好方式」。

结果一写就是九年,强化学习、扩散模型、大模型agent,每一篇都从基础原理写起,几十页长文配自己画的图解。

这个博客后来成了AI领域被引用最多的个人技术博客之一,很多大学直接拿来当教材。

2025年2月,她和前OpenAI CTO Mira Murati成立Thinking Machines Lab,联创还包括OpenAI联创John Schulman、前研究VP Barret Zoph和Luke Metz。a16z领投种子轮20亿美元,估值120亿。

而她在公司高速推进的同时,花时间写完了这篇拖了三年的Scaling Laws长文。

你每天用的ChatGPT、Claude、Gemini,背后都是这些公式在决定下一代怎么训。

下一代AI好不好用,不取决于谁的GPU多,而取决于谁把这些细节处理得更精确。

参考资料:

https://x.com/lilianweng/status/2070237256070389897?s=20

https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

本文来自微信公众号“新智元”,作者:ASI启示录,编辑:摩西

热门币种推荐

相关问答

Q文章提到Scaling Laws的核心思想是什么?

AScaling Laws的核心思想可以总结为:模型越大、数据越多、算力越猛,其性能就会按固定的数学规律(幂律)提升。具体来说,训练的损失值会随模型参数量(N)、数据量(D)和算力(C)的增加在对数坐标上呈一条直线下降,这使得性能提升变得可预测。

QOpenAI和DeepMind在关于最优模型与数据分配比例上的结论有何不同?

AOpenAI(Kaplan团队,2020年)得出的结论是:在给定算力预算下,模型大小(N)的增长应远快于数据量(D),其最优比例关系约为 N_opt ∝ C^0.73。而DeepMind(Chinchilla团队,2022年)得出的结论是模型与数据应等比增长,即 N_opt ∝ C^0.50。两者给出了相反的资源配置建议。

Q导致OpenAI和DeepMind结论分歧的两个主要原因是什么?

A分歧的主要原因有两个:1. 参数统计口径不同:OpenAI在计算模型参数量时排除了embedding层,而DeepMind将其包括在内。这在小模型中影响显著。2. 实验规模差异:OpenAI的实验基于较小规模模型(最大15亿参数),其结论在局部成立;而DeepMind的实验规模更大(达160亿参数以上),发现随着规模扩大,最优比例指数会收敛到0.50。

QChinchilla(DeepMind)的方法论中存在哪些具体问题或Bug?

AChinchilla论文的方法论中存在两个主要问题:1. 在拟合损失函数参数时,对Huber Loss取了平均值而非求和,导致优化器(L-BFGS-B)因损失值过小而提前停止,未找到真正的最优参数。2. 论文中报告的关键幂律指数仅保留了两位小数,这种精度损失在反推其他常数时会导致误差被指数级放大,使得置信区间过窄。

Q面对高质量数据即将耗尽的问题,AI行业正在探索哪些主要方向来绕过数据墙?

A面对高质量数据即将耗尽(预计在2026-2028年间)的问题,行业正转向三个主要方向:1. 强化学习:让模型在数学、编程等可验证任务上进行自我博弈来产生训练信号。2. 测试时计算:在不增加训练成本的前提下,让模型在推理时进行更多计算(如链式思考)以提升表现。3. 合成数据:利用现有的强模型生成新数据来训练下一代模型。

你可能也喜欢

国内首张防爆资质、全球首个加油大脑方案,他们凭什么拿下两个“第一”

据统计,今年国内具身智能领域融资总额已突破370亿元,行业正进入商业化落地的关键阶段。然而,如何让机器人真正进入加油站、油气场站等易燃易爆的高危场景,是首要挑战。这些场景要求机器人必须通过严苛的防爆认证,确保其硬件在设计上杜绝任何点火风险。 在加油站场景中,机器人需要完成一系列精细连贯的操作,如开盖、取枪、加油、归位等,且需适应不同车型的差异。而在场站巡检场景,则要求机器人具备长时间自主巡逻、多异常识别和即时响应的综合能力。此外,港口等多机器人协同场景也对系统架构提出了更高要求。 目前多数具身智能系统采用“流水线式”架构,在复杂长序列任务中容易因微小偏差导致连锁失败。为解决这一问题,前沿研究提出了世界模型驱动的预测方法,例如H-GAR架构。该框架通过“生成目标观测—合成中间过渡帧—交互感知动作精炼”三步,让机器人在执行前就能预测任务终态并规划完整视觉轨迹,从而实现“终态对齐”,显著提升长序列操作的稳定性和容错性。 实现特种场景落地需要“大脑”(智能算法)与“本体”(机械硬件)的深度耦合,以及从底层设计满足防爆等安全要求。随着行业加速商业化,那些能率先跑通“大脑-本体-数据”闭环的企业,将在竞争中占据先机。

marsbit2小时前

国内首张防爆资质、全球首个加油大脑方案,他们凭什么拿下两个“第一”

marsbit2小时前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.6k人学过发布于 2025.01.15更新于 2026.06.02

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片