清华00后校友王冠再出新作：用1/900 token、1/432算力，颠覆Transformer预训练模型

marsbit发布于2026-05-26更新于2026-05-26

文章摘要

清华00后校友王冠团队提出了一种名为HRM-Text的高效预训练模型，使用分层循环模型取代标准Transformer。该方法仅需约1/900的训练token和1/432的估计算力，便使1B参数的模型在多项基准测试中达到了媲美2B至7B开源模型的性能，训练成本约1500美元。其核心是通过双时间尺度递归架构增加计算深度，并采用针对指令-回答对的训练目标，只对回答部分计算损失。研究强调了结构先验与针对性训练能显著降低预训练门槛。同时，论文也指出了当前方法在知识覆盖、自适应计算、规模化验证及工程部署方面的局限性，为未来研究指明了方向。

打破传统大模型预训练范式,清华 00 后校友王冠团队再出新作:

他们利用分层循环模型(HRM)取代标准 Transformer,提出了超越 Scaling 的高效预训练 HRM-Text。

论文链接:https://arxiv.org/abs/2605.20613

在仅使用比标准 baseline 模型少约 100-900 倍的训练 token、96-432 倍的估计计算量的情况下,HRM-Text 依然实现了可媲美 2B 至 7B 参数开源模型的性能表现。

同时,使用 1B 参数、40B 非重复 token,并以约 1500 美元的训练成本,HRM-Text 便在主流基准测试中取得了如下成绩:MMLU 60.7%、ARC-C 81.9%、DROP 82.2%、GSM8K 84.5%、MATH 56.2%。

图|预训练效率。

在此基础上,他们明确提出:结构先验与有针对性的训练目标,可以显著降低预训练门槛。这种训练方案可以让从零开始训练基础模型变得可行。

HRM-Text 是怎样设计的?

大语言模型(LLM)预训练,越来越依赖少数拥有充足算力和数据资源的机构。训练一个有竞争力的基础模型,往往需要数万亿 token、数千张 GPU,甚至上千万美元的算力投入。

然而,当前的训练模式并不高效,大量计算都消耗在了提示词、格式填充和网页噪声等无关 token 上,导致大量训练算力并没有直接服务于推理。

在这项工作中,研究团队重新设计了架构和训练目标,使得 HRM-Text 的预训练相对更为高效。

架构:采用双时间尺度的分层循环模型,把计算拆成慢速的 H 模块和快速的 L 模块。标准 Transformer 对每个 token 只做一次前向传播,HRM 则会在同一 token 上进行多轮递归更新。H 和 L 模块各自只占递归核心参数量的一半,整体计算量大致相当于对同一套参数做 4 次递归展开,在不增加参数量的前提下提高了计算深度。

训练目标:不再沿用标准的全文自回归预训练,而是直接在指令-回答对上训练,只对回答部分计算损失,并配合 PrefixLM 掩码,让指令部分双向注意,回答部分按因果掩码生成。

图|HRM-Text 架构。

为了提升递归训练的稳定性,研究团队引入了 MagicNorm 和 Warmup Deep Credit Assignment。

MagicNorm 是一种混合归一化策略,利用截断反向传播(Truncated BPTT)下前向与反向计算深度的不对称性,在模块内部采用 PreNorm,并在模块出口额外加入归一化,从而提升深层递归训练的稳定性。

Warmup Deep Credit Assignment 则在训练初期仅对最后 2 个递归步骤回传梯度,随后线性扩展至最后 5 步。这种训练机制,能让模型在较短的信用路径上稳定收敛,再逐步引入更长的依赖关系。

效果怎么样?

实验结果表明,HRM-Text 在架构效率、训练目标和整体性能上都表现出明显优势。

1.在固定训练算力下,循环架构是否更有效

结果显示,在 FLOPs 对齐条件下,HRM 1B 在大多数基准上优于 Transformer 1B、Transformer 3B、Looped Transformer 1B 和 RINS 1B;与 TRM 的对比也表明,HRM 的训练更稳定。

图|与 Transformer 模型的性能和稳定性比较。HRM 在所有规模下都保持了稳定的训练动态,而 Transformer 模型在10 亿参数规模下出现了严重的不稳定。此外,在 0.6B 规模下,HRM 仅需比 Transformer 模型少 2倍的计算量,就能在大多数基准上取得具有竞争力的表现。

2.任务完成目标和 PrefixLM 是否有帮助

消融实验显示,在 FLOPs 对齐条件下,1B Transformer 的 MMLU 从标准自回归的 40.55,依次提升到引入任务完成目标后的 47.72、加入 PrefixLM 后的 53.15,以及换成 HRM 架构后的 60.73。

图|不同模型架构与训练目标之间的性能比较

3.HRM-Text 与当代开放模型相比效率如何

HRM-Text 1B 在 MMLU、ARC-C、DROP、GSM8K、MATH 上分别达到 60.7、81.9、82.2、84.5 和 56.2。相比训练预算普遍更大的开放模型,它只用 400 亿唯一 token 和 1B 参数,就进入了 2B 到 7B 开源模型的性能区间;训练所需的token 最多少了 900 倍,算力开销最多少了 432 倍。

图|HRM-Text 1B 与同期全开源模型及开放权重模型的评测结果

4.循环结构是否带来了更大的有效深度

结果显示,标准 Transformer 和 Looped Transformer 在较浅层就趋于稳定,HRM 则在更深层仍保持更明显的块间表示变化、更低的余弦相似度和更高的 logit lens KL 值。

图|有效深度分析。

图|逐层 Logit Lens KL 分析。

不足与未来方向

尽管 HRM-Text 在推理密集型任务上展现了出强劲表现,但这一方法依然存在局限,并提出了未来的研究方向。

1.走向“知识”与“推理”的解耦

目前,更广泛的事实知识覆盖仍然更依赖模型规模与数据广度。HRM-Text 只在 400 亿唯一 token 上训练,且显式知识型来源只占任务格式化混合数据的一部分。未来,研究人员需要将紧凑的推理核心与外部事实存储分开设计,把知识广度交给精选语料、检索增强模块或可学习记忆。

2.自适应计算时间

HRM-Text 的循环调度带来了更大的有效串行深度,但这也意味着模型在推理时需要执行固定数量的递归步骤。未来,一个值得探索的方向是引入自适应计算时间机制,使简单样本能够更早停止计算,并将完整的循环预算保留给困难样本,减少推理成本。

3.现有规模化验证范围仍然有限

当前的 scaling 实验只覆盖到 3B 参数的 Transformer 对照组和 1B 参数的 HRM-Text。研究团队表示,在更大模型规模下是否还能保持类似的效率优势,仍有待后续工作进一步验证。

4.PrefixLM 与推理框架

目前,PrefixLM 在实际部署中仍面临一定的工程实现限制。尽管它能够运行在 vLLM 等标准文本生成推理框架上,但这要求框架在 prefill 阶段支持自定义注意力掩码。如果将其扩展至多轮对话场景,还需进一步设计 KV-cache 机制,既保证用户片段内部保持双向可见,也要确保助手端的生成过程继续遵循因果约束。

更多技术细节,详见原论文。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:夏千斯

你可能也喜欢

STRC优先股价格仍低于面值，策略集团股息维持在12%

Strategy公司的优先股STRC在7月份价格持续低于其100美元的面值，但公司宣布8月股息将维持12%不变，不会上调。董事长Michael Saylor通过社交媒体确认了这一消息，并继续将STRC宣传为增加收入的工具。8月将是股息改为半月支付后的第二个月。 STRC股价在7月有所回升，月底收于89.46美元，全月上涨5.42%，但交易量低于日均水平。公司CEO重申，管理层的目标是让STRC股价最终达到99-100美元区间，但未给出具体时间表。尽管公司第二季度因比特币持仓未实现亏损而录得巨额净亏损，但已建立37.5亿美元的现金储备，以支持其BTC货币化计划下的优先股派息。该储备足以支付超过两年的优先股股息和利息义务。公司近期已折价回购了部分STRC优先股，并计划在股价低于面值时继续回购。

cointelegraph5分钟前

cointelegraph5分钟前

比特币提现仍在继续：Coldcard冷钱包8年存储终成空

硬件钱包Coldcard遭黑客攻击，导致大量资金从易受攻击设备中被持续转出。据Galaxy Research数据，截至2026年8月2日，已有4585个地址被盗，损失总额达1367.05 BTC（约合8860万美元），远超7月30日最初报告的594.5 BTC。大部分被盗资金仍停留在攻击者地址。问题根源并非固件，而是设备生成的种子短语存在漏洞。2021年3月起，因程序员错误集成libNgU库，设备从使用STM32硬件随机数生成器转为使用软件生成器Yasmarang，该生成器由公开可获取的芯片序列号和计时器状态初始化，导致生成的种子短语可在离线状态下被暴力破解。即使固件后续已更新，只要用户未将资金转移至基于新种子短语生成的新地址，旧钱包就始终处于风险中。受影响的设备包括特定固件版本的Mk2/Mk3、Mk4/Mk5及Q系列。仅当种子短语是通过至少50次独立掷骰子或强唯一性BIP-39密码短语创建时方可幸免。官方建议受影响用户立即在已修复的固件上生成新种子短语并转移资产。报道提及一位39岁投资者的案例，他因该漏洞损失了2 BTC（约13万美元）。他多年来通过体力劳动积攒比特币，将其视为在制裁和高通胀国家中的财务保障与提前退休的途径。此次事件使他的长期持有策略和“冷存储”信心遭受重击，他因此决定彻底退出加密货币领域。从历史数据看，随机数生成器缺陷并非首例，类似问题曾导致巨额损失。此次事件警示，即使离线存储也未必绝对安全，其安全性高度依赖于底层硬件和算法的可靠性。

cryptonews.ru10分钟前

cryptonews.ru10分钟前

韩国15种山寨币交易量呈现爆发式增长！

韩国主要加密货币交易所Upbit和Bithumb上部分山寨币交易量出现显著增长。过去24小时内，最受欢迎的山寨币总交易额达到约3.477亿美元。其中，MetaDAO（META）交易量居首，仅在Upbit上的单日交易额就达6584万美元，占该交易所现货总交易量的12.39%。Euler（EUL）以4765万美元的总交易额位居第二，XRP以3811万美元位列第三，持续受到韩国投资者关注。其他交易量靠前的山寨币包括ThunderCore（TT）、Babylon（BABY）、Geodnet（GEOD）、Hyperlane（HYPER）、Momentum（MMT）、Ondo（ONDO）、柴犬币（SHIB）等。本文提供的信息不构成投资建议。

cryptonews.ru1小时前

cryptonews.ru1小时前

唐纳德·特朗普的公司再度出售大批比特币！

据报道，与美国总统唐纳德·特朗普的媒体公司Trump Media & Technology Group相关的地址，疑似向加密货币交易所CryptoCom转移了约2628枚比特币，价值约1.65亿美元。此前有分析称，该公司总计购买了11542枚比特币，平均成本为每枚11.85万美元。据称，2026年至今，相关地址已转出约7281枚比特币，目前仍持有约4261枚。 Trump Media在比特币投资上的已实现和未实现损失总额估计约为5.55亿美元。不过，将比特币转移至交易所并不一定意味着出售资产，也可能是为了托管、流动性管理或其他财务操作。目前尚无法确定其具体意图，但从冷钱包向中心化交易所转移通常被视为潜在的出售行为。 *本文不构成投资建议。

cryptonews.ru3小时前

cryptonews.ru3小时前

帕克·刘易斯解释为何比特币仍是最佳货币

知名比特币分析师帕克·刘易斯在访谈中批评了某些上市公司以“数字信贷”形式销售永续优先股的营销策略，认为这从根本上扭曲了比特币的本质。他指出，比特币在算法层面不具备法币收益性，承诺定期分红主要依赖牛市吸引新投资者来维持，风险极高。刘易斯引用数据说明此类衍生品的巨大风险：全球信贷市场规模达300万亿美元，而永续优先股市场仅约1万亿美元，这表明机构有意规避这种无还款期限的资产，将风险转嫁给信息不足的散户。针对“比特币波动性太大”的常见观点，他认为波动性是这一供应量严格受限的新资产被大规模采用过程中的自然数学结果。新人入场需出更高价从早期持有者手中购买，导致价格剧烈波动。他建议投资者直接持有比特币，这比投资MicroStrategy等公司发行的衍生品更安全。投资者将焦点从直接持有加密货币转向公司衍生品，会忽视法币急速贬值的真正威胁。刘易斯以自创的“肋眼牛排指数”为例，指出其本地超市一款牛排价格从2020年的19.99美元涨至37.99美元，反映年化约12-13%的真实通胀，远超官方平滑后的CPI数据。在全球通胀环境下，最明智、保守且安全的策略仍是直接持有比特币并完全掌控私钥。追逐加密货币国库股等公司工具的收益只会叠加隐性系统风险，而理解去中心化货币的本质才能有效保护财富免受宏观经济动荡影响。

cryptonews.ru3小时前

cryptonews.ru3小时前

交易

现货

清华00后校友王冠再出新作：用1/900 token、1/432算力，颠覆Transformer预训练模型

文章摘要

HRM-Text 是怎样设计的?

效果怎么样?

不足与未来方向

热门币种推荐

相关问答

你可能也喜欢

STRC优先股价格仍低于面值，策略集团股息维持在12%

比特币提现仍在继续：Coldcard冷钱包8年存储终成空

韩国15种山寨币交易量呈现爆发式增长！

唐纳德·特朗普的公司再度出售大批比特币！

帕克·刘易斯解释为何比特币仍是最佳货币

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签