清华00后校友王冠再出新作：用1/900 token、1/432算力，颠覆Transformer预训练模型

marsbit发布于2026-05-26更新于2026-05-26

文章摘要

清华00后校友王冠团队提出了一种名为HRM-Text的高效预训练模型，使用分层循环模型取代标准Transformer。该方法仅需约1/900的训练token和1/432的估计算力，便使1B参数的模型在多项基准测试中达到了媲美2B至7B开源模型的性能，训练成本约1500美元。其核心是通过双时间尺度递归架构增加计算深度，并采用针对指令-回答对的训练目标，只对回答部分计算损失。研究强调了结构先验与针对性训练能显著降低预训练门槛。同时，论文也指出了当前方法在知识覆盖、自适应计算、规模化验证及工程部署方面的局限性，为未来研究指明了方向。

打破传统大模型预训练范式,清华 00 后校友王冠团队再出新作:

他们利用分层循环模型(HRM)取代标准 Transformer,提出了超越 Scaling 的高效预训练 HRM-Text。

论文链接:https://arxiv.org/abs/2605.20613

在仅使用比标准 baseline 模型少约 100-900 倍的训练 token、96-432 倍的估计计算量的情况下,HRM-Text 依然实现了可媲美 2B 至 7B 参数开源模型的性能表现。

同时,使用 1B 参数、40B 非重复 token,并以约 1500 美元的训练成本,HRM-Text 便在主流基准测试中取得了如下成绩:MMLU 60.7%、ARC-C 81.9%、DROP 82.2%、GSM8K 84.5%、MATH 56.2%。

图|预训练效率。

在此基础上,他们明确提出:结构先验与有针对性的训练目标,可以显著降低预训练门槛。这种训练方案可以让从零开始训练基础模型变得可行。

HRM-Text 是怎样设计的?

大语言模型(LLM)预训练,越来越依赖少数拥有充足算力和数据资源的机构。训练一个有竞争力的基础模型,往往需要数万亿 token、数千张 GPU,甚至上千万美元的算力投入。

然而,当前的训练模式并不高效,大量计算都消耗在了提示词、格式填充和网页噪声等无关 token 上,导致大量训练算力并没有直接服务于推理。

在这项工作中,研究团队重新设计了架构和训练目标,使得 HRM-Text 的预训练相对更为高效。

架构:采用双时间尺度的分层循环模型,把计算拆成慢速的 H 模块和快速的 L 模块。标准 Transformer 对每个 token 只做一次前向传播,HRM 则会在同一 token 上进行多轮递归更新。H 和 L 模块各自只占递归核心参数量的一半,整体计算量大致相当于对同一套参数做 4 次递归展开,在不增加参数量的前提下提高了计算深度。

训练目标:不再沿用标准的全文自回归预训练,而是直接在指令-回答对上训练,只对回答部分计算损失,并配合 PrefixLM 掩码,让指令部分双向注意,回答部分按因果掩码生成。

图|HRM-Text 架构。

为了提升递归训练的稳定性,研究团队引入了 MagicNorm 和 Warmup Deep Credit Assignment。

MagicNorm 是一种混合归一化策略,利用截断反向传播(Truncated BPTT)下前向与反向计算深度的不对称性,在模块内部采用 PreNorm,并在模块出口额外加入归一化,从而提升深层递归训练的稳定性。

Warmup Deep Credit Assignment 则在训练初期仅对最后 2 个递归步骤回传梯度,随后线性扩展至最后 5 步。这种训练机制,能让模型在较短的信用路径上稳定收敛,再逐步引入更长的依赖关系。

效果怎么样?

实验结果表明,HRM-Text 在架构效率、训练目标和整体性能上都表现出明显优势。

1.在固定训练算力下,循环架构是否更有效

结果显示,在 FLOPs 对齐条件下,HRM 1B 在大多数基准上优于 Transformer 1B、Transformer 3B、Looped Transformer 1B 和 RINS 1B;与 TRM 的对比也表明,HRM 的训练更稳定。

图|与 Transformer 模型的性能和稳定性比较。HRM 在所有规模下都保持了稳定的训练动态,而 Transformer 模型在10 亿参数规模下出现了严重的不稳定。此外,在 0.6B 规模下,HRM 仅需比 Transformer 模型少 2倍的计算量,就能在大多数基准上取得具有竞争力的表现。

2.任务完成目标和 PrefixLM 是否有帮助

消融实验显示,在 FLOPs 对齐条件下,1B Transformer 的 MMLU 从标准自回归的 40.55,依次提升到引入任务完成目标后的 47.72、加入 PrefixLM 后的 53.15,以及换成 HRM 架构后的 60.73。

图|不同模型架构与训练目标之间的性能比较

3.HRM-Text 与当代开放模型相比效率如何

HRM-Text 1B 在 MMLU、ARC-C、DROP、GSM8K、MATH 上分别达到 60.7、81.9、82.2、84.5 和 56.2。相比训练预算普遍更大的开放模型,它只用 400 亿唯一 token 和 1B 参数,就进入了 2B 到 7B 开源模型的性能区间;训练所需的token 最多少了 900 倍,算力开销最多少了 432 倍。

图|HRM-Text 1B 与同期全开源模型及开放权重模型的评测结果

4.循环结构是否带来了更大的有效深度

结果显示,标准 Transformer 和 Looped Transformer 在较浅层就趋于稳定,HRM 则在更深层仍保持更明显的块间表示变化、更低的余弦相似度和更高的 logit lens KL 值。

图|有效深度分析。

图|逐层 Logit Lens KL 分析。

不足与未来方向

尽管 HRM-Text 在推理密集型任务上展现了出强劲表现,但这一方法依然存在局限,并提出了未来的研究方向。

1.走向“知识”与“推理”的解耦

目前,更广泛的事实知识覆盖仍然更依赖模型规模与数据广度。HRM-Text 只在 400 亿唯一 token 上训练,且显式知识型来源只占任务格式化混合数据的一部分。未来,研究人员需要将紧凑的推理核心与外部事实存储分开设计,把知识广度交给精选语料、检索增强模块或可学习记忆。

2.自适应计算时间

HRM-Text 的循环调度带来了更大的有效串行深度,但这也意味着模型在推理时需要执行固定数量的递归步骤。未来,一个值得探索的方向是引入自适应计算时间机制,使简单样本能够更早停止计算,并将完整的循环预算保留给困难样本,减少推理成本。

3.现有规模化验证范围仍然有限

当前的 scaling 实验只覆盖到 3B 参数的 Transformer 对照组和 1B 参数的 HRM-Text。研究团队表示,在更大模型规模下是否还能保持类似的效率优势,仍有待后续工作进一步验证。

4.PrefixLM 与推理框架

目前,PrefixLM 在实际部署中仍面临一定的工程实现限制。尽管它能够运行在 vLLM 等标准文本生成推理框架上,但这要求框架在 prefill 阶段支持自定义注意力掩码。如果将其扩展至多轮对话场景,还需进一步设计 KV-cache 机制,既保证用户片段内部保持双向可见,也要确保助手端的生成过程继续遵循因果约束。

更多技术细节,详见原论文。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:夏千斯

你可能也喜欢

那1%的卡尔达诺投资者在做什么？加密专家深度解析

加密货币分析师Cheeky Crypto指出，尽管卡尔达诺（ADA）价格持续承压并跌破0.25美元，但顶级投资者（前1%的持有者）的行为正引起关注。与因短期下跌而恐慌的零售投资者不同，这些巨鲸正在趁低价积极积累ADA。分析认为，他们看到了公众忽视的机构基础设施范式转变，并提前布局。与此同时，卡尔达诺网络基本面呈现积极信号：总锁仓价值（TVL）自2025年9月以来增长约42%，超过5.427亿ADA；去中心化交易所周交易量增长约39.58%，达到1026万美元以上；网络总交易笔数已突破1.21亿笔，创下历史新高，反映出网络使用率和投资者长期信心的增长。

bitcoinist4分钟前

bitcoinist4分钟前

BTC八万关口三度受阻，HYPE连创新高信号已现 | 特邀分析

本文对比特币和HYPE进行了多周期走势分析，并提供了本周操作策略。 **比特币分析：** - **走势回顾：** 比特币自2月6日以来日线维持上升通道，但近期在78,500~79,500美元阻力区受阻回落，已从通道上轨回调至中轨附近。4小时图显示自5月6日高点开始调整，若反弹至78,500~79,500美元区域再次承压，可能下探73,500~75,000美元支撑带。 - **本周预判与策略：** 核心关注78,500~79,500美元阻力区与73,500~75,000美元支撑区的争夺。中线建议空仓观望。短线提供两套预案：A) 反弹至78,500~79,500美元遇阻时逢高做空；B) 有效跌破73,500~75,000美元支撑后顺势做空。短线仓位控制在30%以内，并严格设置止损。 **HYPE分析：** - **走势回顾：** HYPE自5月14日低点上涨，4小时图呈现五段式结构。模型显示在65美元附近上涨动能乏力，端点45附近出现顶部预警信号，若形成动能顶背离，构筑短期高点的概率大。 - **本周预判与策略：** 观察价格能否在端点45形成短期高点。若形成高点后回调，建议关注47.5至50美元区域的企稳信号，出现时可轻仓试多，仓位控制在30%以下并严守止损。 **上周操作复盘：** 上周依据模型信号，在比特币反弹至78,500美元附近遇阻时开空单，于75,616美元附近平仓，实现约2.78%的收益。 **风险提示：** 文中观点仅为个人技术分析，不构成投资建议。市场有风险，投资需谨慎。操作中应立即设置止损，并根据盈利情况动态移动止损位以保护利润。

marsbit46分钟前

marsbit46分钟前

Tether 的新生意，帮小国发行稳定币

稳定币发行商Tether宣布与格鲁吉亚政府合作，发行锚定当地货币拉里的稳定币GEL₮。此举旨在降低跨境支付成本、加快结算，并推动该国金融数字化。文章分析指出，这是Tether正在测试的一项新战略：在核心的美元稳定币USDT之外，尝试将“为主权国家发行本币稳定币”打造成一项标准化、可复制的业务。其产品线已包括美元、欧元、墨西哥比索、离岸人民币等稳定币。对格鲁吉亚而言，此举可利用Tether的全球网络提升其货币的跨境流通效率，特别是服务其占比约GDP 15%的侨汇市场。对Tether来说，格鲁吉亚项目本身规模有限，但其核心价值在于建立“模板”。一旦合作模式走通，可快速复制到其他具有类似需求（侨汇依赖高、跨境支付成本高、有一定合规基础）的小型经济体。其深层逻辑在于，通过将各国的本币稳定币接入其以USDT为核心的庞大流动性网络，Tether可能悄然成为连接多国货币的“链上路由器”，构建一种新型的、私营部门主导的跨境金融基础设施。这种“主权货币外包”模式也带来隐忧，包括国家货币主权和控制力的削弱，以及可能使这些国家更深度地融入以USDT为代表的链上美元体系。未来若更多国家效仿此模式，Tether的角色或将从一家稳定币发行商，转变为一种前所未有的、跨主权的链上金融基础设施服务商。

marsbit51分钟前

marsbit51分钟前

Notion CEO：AI 公司应该是“爵士乐队”，而我是“Refounder”

Notion CEO Ivan Zhao在播客中分享了他两次带领公司濒死重建的经历，并阐述了在AI时代下重构公司的理念，自称“Refounder”。他提出，AI使技术能力（Capability）普遍化，真正稀缺的是品味（Taste）与主动性（Agency），因此招聘标准需转向评估后两者。Notion正构建如“爵士乐队”般灵活的组织：工程团队呈现“哑铃型”结构，由顶级资深工程师与大量应届生配合AI Agent工作；解散了CMO层级，让市场职能更贴近业务；并通过收购引入众多创业者来主导专项。在产品规划上，Notion放弃了长期的详细计划，转而采用每周根据技术和市场动态即时调整的“即兴”方式。他强调，在人性不变的基础上，企业需在人才评估、组织设计和工作规划三个层面进行“重写”，以适应AI带来的根本性变化。

marsbit52分钟前

Notion CEO：AI 公司应该是“爵士乐队”，而我是“Refounder”

marsbit52分钟前

BTC八万关口三度受阻，HYPE连创新高信号已现 | 特邀分析

本周市场分析聚焦比特币与HYPE。比特币在78,500-79,500美元阻力区再次遇阻，未能有效突破，目前回落至日线上升通道中轨区域。若无法在此获得支撑，可能进一步下探73,500-75,000美元支撑带。短线操作提供两套预案：A.反弹至78,500-79,500美元区域承压时逢高做空；B.有效跌破73,500-75,000美元支撑后顺势做空。中线方向不明，建议空仓观望。 HYPE自低点上涨后，在4小时图出现顶部预警信号，上涨动能显示乏力，可能在当前价位附近形成短期高点。策略上切忌追涨，应等待价格回调至47.5-50美元区域出现企稳信号后，再考虑轻仓试多。上周交易执行了比特币短线空单，于77,782美元开仓，75,616美元平仓，实现约2.78%的收益。操作遵循了模型发出的顶底信号和严格的止损纪律。文中所有观点仅为个人技术分析，不构成投资建议。市场有风险，投资需谨慎。

Odaily星球日报1小时前

交易

现货

合约

清华00后校友王冠再出新作：用1/900 token、1/432算力，颠覆Transformer预训练模型

文章摘要

HRM-Text 是怎样设计的?

效果怎么样?

不足与未来方向

相关问答

你可能也喜欢

那1%的卡尔达诺投资者在做什么？加密专家深度解析

BTC八万关口三度受阻，HYPE连创新高信号已现 | 特邀分析

Tether 的新生意，帮小国发行稳定币

Notion CEO：AI 公司应该是“爵士乐队”，而我是“Refounder”

BTC八万关口三度受阻，HYPE连创新高信号已现 | 特邀分析

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签