清华00后校友王冠再出新作:用1/900 token、1/432算力,颠覆Transformer预训练模型

marsbit发布于2026-05-26更新于2026-05-26

文章摘要

清华00后校友王冠团队提出了一种名为HRM-Text的高效预训练模型,使用分层循环模型取代标准Transformer。该方法仅需约1/900的训练token和1/432的估计算力,便使1B参数的模型在多项基准测试中达到了媲美2B至7B开源模型的性能,训练成本约1500美元。其核心是通过双时间尺度递归架构增加计算深度,并采用针对指令-回答对的训练目标,只对回答部分计算损失。研究强调了结构先验与针对性训练能显著降低预训练门槛。同时,论文也指出了当前方法在知识覆盖、自适应计算、规模化验证及工程部署方面的局限性,为未来研究指明了方向。

打破传统大模型预训练范式,清华 00 后校友王冠团队再出新作:

他们利用分层循环模型(HRM)取代标准 Transformer,提出了超越 Scaling 的高效预训练 HRM-Text

论文链接:https://arxiv.org/abs/2605.20613

在仅使用比标准 baseline 模型少约 100-900 倍的训练 token、96-432 倍的估计计算量的情况下,HRM-Text 依然实现了可媲美 2B 至 7B 参数开源模型的性能表现。

同时,使用 1B 参数、40B 非重复 token,并以约 1500 美元的训练成本,HRM-Text 便在主流基准测试中取得了如下成绩:MMLU 60.7%、ARC-C 81.9%、DROP 82.2%、GSM8K 84.5%、MATH 56.2%。

图|预训练效率。

在此基础上,他们明确提出:结构先验与有针对性的训练目标,可以显著降低预训练门槛。这种训练方案可以让从零开始训练基础模型变得可行。

HRM-Text 是怎样设计的?

大语言模型(LLM)预训练,越来越依赖少数拥有充足算力和数据资源的机构。训练一个有竞争力的基础模型,往往需要数万亿 token、数千张 GPU,甚至上千万美元的算力投入。

然而,当前的训练模式并不高效,大量计算都消耗在了提示词格式填充网页噪声等无关 token 上,导致大量训练算力并没有直接服务于推理。

在这项工作中,研究团队重新设计了架构和训练目标,使得 HRM-Text 的预训练相对更为高效。

架构:采用双时间尺度的分层循环模型,把计算拆成慢速的 H 模块和快速的 L 模块。标准 Transformer 对每个 token 只做一次前向传播,HRM 则会在同一 token 上进行多轮递归更新。H 和 L 模块各自只占递归核心参数量的一半,整体计算量大致相当于对同一套参数做 4 次递归展开,在不增加参数量的前提下提高了计算深度

训练目标:不再沿用标准的全文自回归预训练,而是直接在指令-回答对上训练,只对回答部分计算损失,并配合 PrefixLM 掩码,让指令部分双向注意,回答部分按因果掩码生成。

图|HRM-Text 架构。

为了提升递归训练的稳定性,研究团队引入了 MagicNorm 和 Warmup Deep Credit Assignment。

MagicNorm 是一种混合归一化策略,利用截断反向传播(Truncated BPTT)下前向与反向计算深度的不对称性,在模块内部采用 PreNorm,并在模块出口额外加入归一化,从而提升深层递归训练的稳定性。

Warmup Deep Credit Assignment 则在训练初期仅对最后 2 个递归步骤回传梯度,随后线性扩展至最后 5 步。这种训练机制,能让模型在较短的信用路径上稳定收敛,再逐步引入更长的依赖关系。

效果怎么样?

实验结果表明,HRM-Text 在架构效率、训练目标和整体性能上都表现出明显优势。

1.在固定训练算力下,循环架构是否更有效

结果显示,在 FLOPs 对齐条件下,HRM 1B 在大多数基准上优于 Transformer 1B、Transformer 3B、Looped Transformer 1B 和 RINS 1B;与 TRM 的对比也表明,HRM 的训练更稳定

图|与 Transformer 模型的性能和稳定性比较。HRM 在所有规模下都保持了稳定的训练动态,而 Transformer 模型在10 亿参数规模下出现了严重的不稳定。此外,在 0.6B 规模下,HRM 仅需比 Transformer 模型少 2倍的计算量,就能在大多数基准上取得具有竞争力的表现。

2.任务完成目标和 PrefixLM 是否有帮助

消融实验显示,在 FLOPs 对齐条件下,1B Transformer 的 MMLU 从标准自回归的 40.55,依次提升到引入任务完成目标后的 47.72、加入 PrefixLM 后的 53.15,以及换成 HRM 架构后的 60.73。

图|不同模型架构与训练目标之间的性能比较

3.HRM-Text 与当代开放模型相比效率如何

HRM-Text 1B 在 MMLU、ARC-C、DROP、GSM8K、MATH 上分别达到 60.7、81.9、82.2、84.5 和 56.2。相比训练预算普遍更大的开放模型,它只用 400 亿唯一 token 和 1B 参数,就进入了 2B 到 7B 开源模型的性能区间;训练所需的token 最多少了 900 倍,算力开销最多少了 432 倍

图|HRM-Text 1B 与同期全开源模型及开放权重模型的评测结果

4.循环结构是否带来了更大的有效深度

结果显示,标准 Transformer 和 Looped Transformer 在较浅层就趋于稳定,HRM 则在更深层仍保持更明显的块间表示变化更低的余弦相似度更高的 logit lens KL 值

图|有效深度分析。

图|逐层 Logit Lens KL 分析。

不足与未来方向

尽管 HRM-Text 在推理密集型任务上展现了出强劲表现,但这一方法依然存在局限,并提出了未来的研究方向。

1.走向“知识”与“推理”的解耦

目前,更广泛的事实知识覆盖仍然更依赖模型规模与数据广度。HRM-Text 只在 400 亿唯一 token 上训练,且显式知识型来源只占任务格式化混合数据的一部分。未来,研究人员需要将紧凑的推理核心与外部事实存储分开设计,把知识广度交给精选语料检索增强模块可学习记忆

2.自适应计算时间

HRM-Text 的循环调度带来了更大的有效串行深度,但这也意味着模型在推理时需要执行固定数量的递归步骤。未来,一个值得探索的方向是引入自适应计算时间机制,使简单样本能够更早停止计算,并将完整的循环预算保留给困难样本,减少推理成本

3.现有规模化验证范围仍然有限

当前的 scaling 实验只覆盖到 3B 参数的 Transformer 对照组和 1B 参数的 HRM-Text。研究团队表示,在更大模型规模下是否还能保持类似的效率优势,仍有待后续工作进一步验证

4.PrefixLM 与推理框架

目前,PrefixLM 在实际部署中仍面临一定的工程实现限制。尽管它能够运行在 vLLM 等标准文本生成推理框架上,但这要求框架在 prefill 阶段支持自定义注意力掩码。如果将其扩展至多轮对话场景,还需进一步设计 KV-cache 机制,既保证用户片段内部保持双向可见,也要确保助手端的生成过程继续遵循因果约束。

更多技术细节,详见原论文。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:夏千斯

相关问答

QHRM-Text模型相比传统Transformer模型在训练资源消耗上有多大的提升?

AHRM-Text模型在训练中,所需的训练Token比标准baseline模型少约100到900倍,所需的估计计算量比标准baseline模型少约96到432倍。

QHRM-Text模型的核心架构是什么,它与标准Transformer的主要区别在哪里?

AHRM-Text的核心架构是分层循环模型。它与标准Transformer的主要区别在于:它采用双时间尺度的设计,将计算拆分为慢速H模块和快速L模块,并在同一token上进行多轮递归更新,从而在不增加参数量的前提下提高了计算深度,而标准Transformer对每个token只进行一次前向传播。

QHRM-Text在哪些主流基准测试中取得了什么成绩?

A在使用1B参数、40B非重复token训练后,HRM-Text在多个主流基准测试中取得的成绩如下:MMLU(60.7%)、ARC-C(81.9%)、DROP(82.2%)、GSM8K(84.5%)、MATH(56.2%)。

Q为了提高递归训练的稳定性,研究团队引入了哪两项关键技术?

A研究团队引入了两项关键技术:1. MagicNorm,一种混合归一化策略,它利用截断反向传播下前向与反向计算深度的不对称性,在模块内部采用PreNorm并在模块出口额外加入归一化。2. Warmup Deep Credit Assignment,它在训练初期仅对最后2个递归步骤回传梯度,随后线性扩展至最后5步。

Q文章指出了HRM-Text方法的哪些局限和未来的研究方向?

A文章指出的局限和未来研究方向包括:1. 需要将“知识”与“推理”解耦,即把知识广度交给精选语料、检索增强模块或可学习记忆,而非仅依赖模型参数。2. 引入自适应计算时间机制,使简单样本能更早停止计算,以节省推理成本。3. 当前规模化验证仅到3B参数范围,更大规模下的效率优势有待验证。4. PrefixLM在实际部署中面临工程实现限制,需进一步设计适配多轮对话的KV-cache机制。

你可能也喜欢

富达年中复盘:2026 年数字资产的 6 大关键趋势

富达数字资产研究团队在2026年年中复盘报告中,梳理了年初展望中提出的六大关键趋势进展,认为数字资产领域正在进行结构性“重塑”。 1. **数字资产与传统资本市场加速整合**:趋势持续且快于预期。现货比特币ETP期权未平仓合约激增,代币化领域活跃,监管框架(如SEC/CFTC指南)趋于清晰,推动数字资产进一步融入主流金融体系。 2. **代币持有者权利受关注但仍不明朗**:生态内相关机制(如回购、治理重组)的试验在继续,但市场尚未对此形成明确的“权利溢价”定价,该趋势仍处早期。 3. **人工智能算力需求可能影响比特币挖矿**:比特币算力与挖矿难度出现下降,虽部分受季节性因素影响,但增长放缓的长期趋势与AI算力竞争加剧的预测相符,矿工可能正转向更有利可图的AI数据中心业务。 4. **比特币网络处于新的转折点**:OP_RETURN数据上限放宽未导致网络滥用或臃肿。当前焦点转向网络动态,Bitcoin Knots节点占比约17%,虽引发对潜在分裂风险的讨论,但Bitcoin Core(占比77%)仍主导共识。同时,抗量子计算等长期安全升级研究获得进展。 5. **空头暂时掌控市场局面**:年初至今,受清算去杠杆、高通胀及地缘政治不确定性影响,熊市情景占上风,比特币价格下跌。但近期在地缘冲突后,比特币展现出避险属性,跑赢部分传统资产,且机构参与、监管清晰度提升等结构性利好依然存在。 6. **黄金保持强势,去美元化趋势显现**:黄金在央行购金及去美元化趋势支撑下表现强劲。有证据显示比特币开始在一些国际贸易场景(如伊朗)作为支付手段被使用,但比特币紧随黄金优异表现的情景尚未出现。 **结论**:当前数字资产市场呈现短期压力与长期结构性进展并存的局面。投资者需超越价格波动,关注机构融合、监管、基础设施等领域的实质推进,这些正为下一阶段增长积蓄力量。

marsbit1小时前

富达年中复盘:2026 年数字资产的 6 大关键趋势

marsbit1小时前

富达年中复盘:2026 年数字资产的 6 大关键趋势

富达数字资产在年中复盘中,梳理了其在《2026年展望》中提出的六大关键趋势的当前进展: 1. **数字资产与资本市场加速整合**:传统金融渠道对数字资产的敞口需求坚挺,现货比特币ETP期权等产品发展迅速,反映出机构和主流投资者采用率持续上升。代币化势头增强,监管框架也趋于清晰,推动数字资产进一步融入金融体系。 2. **代币持有者权利逐渐受关注**:生态内正在试验更多机制以绑定持有者利益,如基于储备的回购和治理结构更新。但相关的“权利溢价”尚未完全体现在市场定价中,趋势仍处早期。 3. **人工智能与挖矿的潜在转变**:比特币算力增长呈现放缓趋势,部分原因可能是矿工将能源和基础设施转向利润率可能更高的AI算力需求。这符合此前关于结构性转变的判断。 4. **比特币处于新的转折点**:提高OP_RETURN数据上限并未导致区块链明显膨胀或网络压力。当前焦点转向网络动态,如Bitcoin Knots节点的波动可能带来潜在分裂风险,但Bitcoin Core节点仍主导共识。同时,抗量子计算等长期安全升级的准备工作也在推进。 5. **空头暂时掌控局面**:受去杠杆、高通胀及地缘政治不确定性影响,比特币价格承压,熊市情景占上风。但在压力时期,比特币也展现出作为高流动性中立资产的韧性,且机构参与、监管清晰度提升等结构性利好依然存在。 6. **黄金保持强势**:受央行购金及全球“去美元化”趋势支撑,黄金年初表现强劲。央行需求持续,黄金已成为全球主要储备资产。然而,此前预期的比特币紧随黄金的优异表现尚未出现。 **结论**:当前数字资产市场呈现短期压力与长期结构性进展并存的局面。机构化、监管和基础设施等趋势正按预期推进,为下一阶段增长积蓄力量,投资者需关注这些底层转变而非短期价格波动。

链捕手1小时前

富达年中复盘:2026 年数字资产的 6 大关键趋势

链捕手1小时前

Crypto GP 的中年危机:没有 PMF,就没有 LP 的下一张支票

**Crypto GP的中年危机:没有PMF,就没有LP的下一张支票** 当前加密货币市场,有限合伙人(LP)已不再愿意为虚无的梦想买单,普通合伙人(GP)必须拿出具有产品市场契合度(PMF)的具体产品才能持续获得融资。市场环境已从“购买未来愿景”转向“购买具体产品”阶段,LP要求立即、相对确定的赚钱机会。 文章将当前加密募资产品分为三大类:一级市场(Primary)、流动性市场(Liquid)以及中心化/去中心化金融原生收益(CeFi/DeFi Native Yield)。本文上篇重点分析一级市场。 **一级市场现状与挑战:** 过去,LP投资加密VC的主要理由包括:捕捉行业增长红利、获取项目投资渠道、信赖GP的卓越判断力、看重GP的“攒局”资源整合能力,或是进行声誉投资。然而,这些理由如今已大大削弱: 1. 获取加密资产曝险的途径(如ETF、托管账户等)已非常丰富,不再依赖VC盲池基金。 2. LP自身学习能力增强,或已建立内部团队,对GP渠道的依赖降低。 3. 多数GP在上个周期未能证明其判断力优于市场。 4. 市场下行时,“攒局”与退出变得困难。 **谁能留在牌桌上?** 在当前环境下,能继续在一级市场募资的GP主要包括: 1. 管理规模足以进入捐赠基金等长期耐心资本配置范围的基金。 2. 使用自有资金投资的家族办公室、公司或高净值人士。 3. 在本周期内真正为LP创造了超额回报的少数基金。 4. 具备明确生态资源和利益置换能力的“攒局型”基金。 对于其他大多数GP而言,行业信任已然受损,需要心态归零,在细分领域重新证明自己创造超额回报的能力,或提供具体的服务价值,以此重建信任并寻求发展。

marsbit2小时前

Crypto GP 的中年危机:没有 PMF,就没有 LP 的下一张支票

marsbit2小时前

脱钩时代来临,比特币不再是加密的唯一罗盘

文章指出,加密市场正告别以比特币为单一风向标的时代,分化为“内生型”和“外生型”两大资产阵营。 内生型资产(如比特币和多数传统加密货币)的价值仍与加密市场整体行情深度绑定。而外生型资产的崛起成为新趋势,其价值主要依托自身业务的真实需求和基本面,日益独立于比特币价格波动。 例如,Hyperliquid作为混合型案例,其部分合约交易已转向非加密资产。Venice等项目则完全脱离加密市场,其商业模式更接近消费级AI服务,收入来自用户为AI推理付费。Figure公司利用区块链技术提升贷款效率,其核心价值在于金融科技业务本身。 此外,稳定币等赛道的企业收购与高增长(如BVNK、Bridge),也显示了其发展与加密牛熊周期的脱钩。 这一转变意味着行业分析逻辑的根本改变:研究外生型资产需要像分析传统企业一样,专注于用户群体、经济模型和行业护城河等基本面,而非紧盯比特币价格。文章列举了多个具备潜力的外生型赛道,包括链上金融服务、AI与加密融合、新型数字银行、支付、非金融消费产品等。 目前,投资相关企业股权仍是主要途径,代币机制仍需优化。但核心趋势已定:加密市场的驱动力正变得多元,行业研究重心将从解读比特币图表转向深耕企业基本面。未来,加密市场齐涨共跌的局面或将不再。

marsbit3小时前

脱钩时代来临,比特币不再是加密的唯一罗盘

marsbit3小时前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.4k人学过发布于 2025.01.15更新于 2026.06.01

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片