清华00后校友王冠再出新作:用1/900 token、1/432算力,颠覆Transformer预训练模型

marsbit發佈於 2026-05-26更新於 2026-05-26

文章摘要

清华00后校友王冠团队提出了一种名为HRM-Text的高效预训练模型,使用分层循环模型取代标准Transformer。该方法仅需约1/900的训练token和1/432的估计算力,便使1B参数的模型在多项基准测试中达到了媲美2B至7B开源模型的性能,训练成本约1500美元。其核心是通过双时间尺度递归架构增加计算深度,并采用针对指令-回答对的训练目标,只对回答部分计算损失。研究强调了结构先验与针对性训练能显著降低预训练门槛。同时,论文也指出了当前方法在知识覆盖、自适应计算、规模化验证及工程部署方面的局限性,为未来研究指明了方向。

打破传统大模型预训练范式,清华 00 后校友王冠团队再出新作:

他们利用分层循环模型(HRM)取代标准 Transformer,提出了超越 Scaling 的高效预训练 HRM-Text

论文链接:https://arxiv.org/abs/2605.20613

在仅使用比标准 baseline 模型少约 100-900 倍的训练 token、96-432 倍的估计计算量的情况下,HRM-Text 依然实现了可媲美 2B 至 7B 参数开源模型的性能表现。

同时,使用 1B 参数、40B 非重复 token,并以约 1500 美元的训练成本,HRM-Text 便在主流基准测试中取得了如下成绩:MMLU 60.7%、ARC-C 81.9%、DROP 82.2%、GSM8K 84.5%、MATH 56.2%。

图|预训练效率。

在此基础上,他们明确提出:结构先验与有针对性的训练目标,可以显著降低预训练门槛。这种训练方案可以让从零开始训练基础模型变得可行。

HRM-Text 是怎样设计的?

大语言模型(LLM)预训练,越来越依赖少数拥有充足算力和数据资源的机构。训练一个有竞争力的基础模型,往往需要数万亿 token、数千张 GPU,甚至上千万美元的算力投入。

然而,当前的训练模式并不高效,大量计算都消耗在了提示词格式填充网页噪声等无关 token 上,导致大量训练算力并没有直接服务于推理。

在这项工作中,研究团队重新设计了架构和训练目标,使得 HRM-Text 的预训练相对更为高效。

架构:采用双时间尺度的分层循环模型,把计算拆成慢速的 H 模块和快速的 L 模块。标准 Transformer 对每个 token 只做一次前向传播,HRM 则会在同一 token 上进行多轮递归更新。H 和 L 模块各自只占递归核心参数量的一半,整体计算量大致相当于对同一套参数做 4 次递归展开,在不增加参数量的前提下提高了计算深度

训练目标:不再沿用标准的全文自回归预训练,而是直接在指令-回答对上训练,只对回答部分计算损失,并配合 PrefixLM 掩码,让指令部分双向注意,回答部分按因果掩码生成。

图|HRM-Text 架构。

为了提升递归训练的稳定性,研究团队引入了 MagicNorm 和 Warmup Deep Credit Assignment。

MagicNorm 是一种混合归一化策略,利用截断反向传播(Truncated BPTT)下前向与反向计算深度的不对称性,在模块内部采用 PreNorm,并在模块出口额外加入归一化,从而提升深层递归训练的稳定性。

Warmup Deep Credit Assignment 则在训练初期仅对最后 2 个递归步骤回传梯度,随后线性扩展至最后 5 步。这种训练机制,能让模型在较短的信用路径上稳定收敛,再逐步引入更长的依赖关系。

效果怎么样?

实验结果表明,HRM-Text 在架构效率、训练目标和整体性能上都表现出明显优势。

1.在固定训练算力下,循环架构是否更有效

结果显示,在 FLOPs 对齐条件下,HRM 1B 在大多数基准上优于 Transformer 1B、Transformer 3B、Looped Transformer 1B 和 RINS 1B;与 TRM 的对比也表明,HRM 的训练更稳定

图|与 Transformer 模型的性能和稳定性比较。HRM 在所有规模下都保持了稳定的训练动态,而 Transformer 模型在10 亿参数规模下出现了严重的不稳定。此外,在 0.6B 规模下,HRM 仅需比 Transformer 模型少 2倍的计算量,就能在大多数基准上取得具有竞争力的表现。

2.任务完成目标和 PrefixLM 是否有帮助

消融实验显示,在 FLOPs 对齐条件下,1B Transformer 的 MMLU 从标准自回归的 40.55,依次提升到引入任务完成目标后的 47.72、加入 PrefixLM 后的 53.15,以及换成 HRM 架构后的 60.73。

图|不同模型架构与训练目标之间的性能比较

3.HRM-Text 与当代开放模型相比效率如何

HRM-Text 1B 在 MMLU、ARC-C、DROP、GSM8K、MATH 上分别达到 60.7、81.9、82.2、84.5 和 56.2。相比训练预算普遍更大的开放模型,它只用 400 亿唯一 token 和 1B 参数,就进入了 2B 到 7B 开源模型的性能区间;训练所需的token 最多少了 900 倍,算力开销最多少了 432 倍

图|HRM-Text 1B 与同期全开源模型及开放权重模型的评测结果

4.循环结构是否带来了更大的有效深度

结果显示,标准 Transformer 和 Looped Transformer 在较浅层就趋于稳定,HRM 则在更深层仍保持更明显的块间表示变化更低的余弦相似度更高的 logit lens KL 值

图|有效深度分析。

图|逐层 Logit Lens KL 分析。

不足与未来方向

尽管 HRM-Text 在推理密集型任务上展现了出强劲表现,但这一方法依然存在局限,并提出了未来的研究方向。

1.走向“知识”与“推理”的解耦

目前,更广泛的事实知识覆盖仍然更依赖模型规模与数据广度。HRM-Text 只在 400 亿唯一 token 上训练,且显式知识型来源只占任务格式化混合数据的一部分。未来,研究人员需要将紧凑的推理核心与外部事实存储分开设计,把知识广度交给精选语料检索增强模块可学习记忆

2.自适应计算时间

HRM-Text 的循环调度带来了更大的有效串行深度,但这也意味着模型在推理时需要执行固定数量的递归步骤。未来,一个值得探索的方向是引入自适应计算时间机制,使简单样本能够更早停止计算,并将完整的循环预算保留给困难样本,减少推理成本

3.现有规模化验证范围仍然有限

当前的 scaling 实验只覆盖到 3B 参数的 Transformer 对照组和 1B 参数的 HRM-Text。研究团队表示,在更大模型规模下是否还能保持类似的效率优势,仍有待后续工作进一步验证

4.PrefixLM 与推理框架

目前,PrefixLM 在实际部署中仍面临一定的工程实现限制。尽管它能够运行在 vLLM 等标准文本生成推理框架上,但这要求框架在 prefill 阶段支持自定义注意力掩码。如果将其扩展至多轮对话场景,还需进一步设计 KV-cache 机制,既保证用户片段内部保持双向可见,也要确保助手端的生成过程继续遵循因果约束。

更多技术细节,详见原论文。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:夏千斯

相關問答

QHRM-Text模型相比传统Transformer模型在训练资源消耗上有多大的提升?

AHRM-Text模型在训练中,所需的训练Token比标准baseline模型少约100到900倍,所需的估计计算量比标准baseline模型少约96到432倍。

QHRM-Text模型的核心架构是什么,它与标准Transformer的主要区别在哪里?

AHRM-Text的核心架构是分层循环模型。它与标准Transformer的主要区别在于:它采用双时间尺度的设计,将计算拆分为慢速H模块和快速L模块,并在同一token上进行多轮递归更新,从而在不增加参数量的前提下提高了计算深度,而标准Transformer对每个token只进行一次前向传播。

QHRM-Text在哪些主流基准测试中取得了什么成绩?

A在使用1B参数、40B非重复token训练后,HRM-Text在多个主流基准测试中取得的成绩如下:MMLU(60.7%)、ARC-C(81.9%)、DROP(82.2%)、GSM8K(84.5%)、MATH(56.2%)。

Q为了提高递归训练的稳定性,研究团队引入了哪两项关键技术?

A研究团队引入了两项关键技术:1. MagicNorm,一种混合归一化策略,它利用截断反向传播下前向与反向计算深度的不对称性,在模块内部采用PreNorm并在模块出口额外加入归一化。2. Warmup Deep Credit Assignment,它在训练初期仅对最后2个递归步骤回传梯度,随后线性扩展至最后5步。

Q文章指出了HRM-Text方法的哪些局限和未来的研究方向?

A文章指出的局限和未来研究方向包括:1. 需要将“知识”与“推理”解耦,即把知识广度交给精选语料、检索增强模块或可学习记忆,而非仅依赖模型参数。2. 引入自适应计算时间机制,使简单样本能更早停止计算,以节省推理成本。3. 当前规模化验证仅到3B参数范围,更大规模下的效率优势有待验证。4. PrefixLM在实际部署中面临工程实现限制,需进一步设计适配多轮对话的KV-cache机制。

你可能也喜歡

BTC八万关口三度受阻,HYPE连创新高信号已现 | 特邀分析

本文对比特币和HYPE进行了多周期走势分析,并提供了本周操作策略。 **比特币分析:** - **走势回顾:** 比特币自2月6日以来日线维持上升通道,但近期在78,500~79,500美元阻力区受阻回落,已从通道上轨回调至中轨附近。4小时图显示自5月6日高点开始调整,若反弹至78,500~79,500美元区域再次承压,可能下探73,500~75,000美元支撑带。 - **本周预判与策略:** 核心关注78,500~79,500美元阻力区与73,500~75,000美元支撑区的争夺。中线建议空仓观望。短线提供两套预案:A) 反弹至78,500~79,500美元遇阻时逢高做空;B) 有效跌破73,500~75,000美元支撑后顺势做空。短线仓位控制在30%以内,并严格设置止损。 **HYPE分析:** - **走势回顾:** HYPE自5月14日低点上涨,4小时图呈现五段式结构。模型显示在65美元附近上涨动能乏力,端点45附近出现顶部预警信号,若形成动能顶背离,构筑短期高点的概率大。 - **本周预判与策略:** 观察价格能否在端点45形成短期高点。若形成高点后回调,建议关注47.5至50美元区域的企稳信号,出现时可轻仓试多,仓位控制在30%以下并严守止损。 **上周操作复盘:** 上周依据模型信号,在比特币反弹至78,500美元附近遇阻时开空单,于75,616美元附近平仓,实现约2.78%的收益。 **风险提示:** 文中观点仅为个人技术分析,不构成投资建议。市场有风险,投资需谨慎。操作中应立即设置止损,并根据盈利情况动态移动止损位以保护利润。

marsbit51 分鐘前

BTC八万关口三度受阻,HYPE连创新高信号已现 | 特邀分析

marsbit51 分鐘前

Tether 的新生意,帮小国发行稳定币

稳定币发行商Tether宣布与格鲁吉亚政府合作,发行锚定当地货币拉里的稳定币GEL₮。此举旨在降低跨境支付成本、加快结算,并推动该国金融数字化。 文章分析指出,这是Tether正在测试的一项新战略:在核心的美元稳定币USDT之外,尝试将“为主权国家发行本币稳定币”打造成一项标准化、可复制的业务。其产品线已包括美元、欧元、墨西哥比索、离岸人民币等稳定币。对格鲁吉亚而言,此举可利用Tether的全球网络提升其货币的跨境流通效率,特别是服务其占比约GDP 15%的侨汇市场。 对Tether来说,格鲁吉亚项目本身规模有限,但其核心价值在于建立“模板”。一旦合作模式走通,可快速复制到其他具有类似需求(侨汇依赖高、跨境支付成本高、有一定合规基础)的小型经济体。其深层逻辑在于,通过将各国的本币稳定币接入其以USDT为核心的庞大流动性网络,Tether可能悄然成为连接多国货币的“链上路由器”,构建一种新型的、私营部门主导的跨境金融基础设施。 这种“主权货币外包”模式也带来隐忧,包括国家货币主权和控制力的削弱,以及可能使这些国家更深度地融入以USDT为代表的链上美元体系。未来若更多国家效仿此模式,Tether的角色或将从一家稳定币发行商,转变为一种前所未有的、跨主权的链上金融基础设施服务商。

marsbit56 分鐘前

Tether 的新生意,帮小国发行稳定币

marsbit56 分鐘前

交易

現貨
合約

熱門文章

什麼是 $S$

理解 SPERO:全面概述 SPERO 簡介 隨著創新領域的不斷演變,web3 技術和加密貨幣項目的出現在塑造數字未來中扮演著關鍵角色。在這個動態領域中,SPERO(標記為 SPERO,$$s$)是一個引起關注的項目。本文旨在收集並呈現有關 SPERO 的詳細信息,以幫助愛好者和投資者理解其基礎、目標和在 web3 和加密領域內的創新。 SPERO,$$s$ 是什麼? SPERO,$$s$ 是加密空間中的一個獨特項目,旨在利用去中心化和區塊鏈技術的原則,創建一個促進參與、實用性和金融包容性的生態系統。該項目旨在以新的方式促進點對點互動,為用戶提供創新的金融解決方案和服務。 SPERO,$$s$ 的核心目標是通過提供增強用戶體驗的工具和平台來賦能個人。這包括使交易方式更加靈活、促進社區驅動的倡議,以及通過去中心化應用程序(dApps)創造金融機會的途徑。SPERO,$$s$ 的基本願景圍繞包容性展開,旨在彌合傳統金融中的差距,同時利用區塊鏈技術的優勢。 誰是 SPERO,$$s$ 的創建者? SPERO,$$s$ 的創建者身份仍然有些模糊,因為公開可用的資源對其創始人提供的詳細背景信息有限。這種缺乏透明度可能源於該項目對去中心化的承諾——這是一種許多 web3 項目所共享的精神,優先考慮集體貢獻而非個人認可。 通過將討論重心放在社區及其共同目標上,SPERO,$$s$ 體現了賦能的本質,而不特別突出某些個體。因此,理解 SPERO 的精神和使命比識別單一創建者更為重要。 誰是 SPERO,$$s$ 的投資者? SPERO,$$s$ 得到了來自風險投資家到天使投資者的多樣化投資者的支持,他們致力於促進加密領域的創新。這些投資者的關注點通常與 SPERO 的使命一致——優先考慮那些承諾社會技術進步、金融包容性和去中心化治理的項目。 這些投資者通常對不僅提供創新產品,還對區塊鏈社區及其生態系統做出積極貢獻的項目感興趣。這些投資者的支持強化了 SPERO,$$s$ 作為快速發展的加密項目領域中的一個重要競爭者。 SPERO,$$s$ 如何運作? SPERO,$$s$ 採用多面向的框架,使其與傳統的加密貨幣項目區別開來。以下是一些突顯其獨特性和創新的關鍵特徵: 去中心化治理:SPERO,$$s$ 整合了去中心化治理模型,賦予用戶積極參與決策過程的權力,關於項目的未來。這種方法促進了社區成員之間的擁有感和責任感。 代幣實用性:SPERO,$$s$ 使用其自己的加密貨幣代幣,旨在在生態系統內部提供多種功能。這些代幣使交易、獎勵和平台上提供的服務得以促進,增強了整體參與度和實用性。 分層架構:SPERO,$$s$ 的技術架構支持模塊化和可擴展性,允許在項目發展過程中無縫整合額外的功能和應用。這種適應性對於在不斷變化的加密環境中保持相關性至關重要。 社區參與:該項目強調社區驅動的倡議,採用激勵合作和反饋的機制。通過培養強大的社區,SPERO,$$s$ 能夠更好地滿足用戶需求並適應市場趨勢。 專注於包容性:通過提供低交易費用和用戶友好的界面,SPERO,$$s$ 旨在吸引多樣化的用戶群體,包括那些以前可能未曾參與加密領域的個體。這種對包容性的承諾與其通過可及性賦能的總體使命相一致。 SPERO,$$s$ 的時間線 理解一個項目的歷史提供了對其發展軌跡和里程碑的關鍵見解。以下是建議的時間線,映射 SPERO,$$s$ 演變中的重要事件: 概念化和構思階段:形成 SPERO,$$s$ 基礎的初步想法被提出,與區塊鏈行業內的去中心化和社區聚焦原則密切相關。 項目白皮書的發布:在概念階段之後,發布了一份全面的白皮書,詳細說明了 SPERO,$$s$ 的願景、目標和技術基礎設施,以吸引社區的興趣和反饋。 社區建設和早期參與:積極進行外展工作,建立早期採用者和潛在投資者的社區,促進圍繞項目目標的討論並獲得支持。 代幣生成事件:SPERO,$$s$ 進行了一次代幣生成事件(TGE),向早期支持者分發其原生代幣,並在生態系統內建立初步流動性。 首次 dApp 上線:與 SPERO,$$s$ 相關的第一個去中心化應用程序(dApp)上線,允許用戶參與平台的核心功能。 持續發展和夥伴關係:對項目產品的持續更新和增強,包括與區塊鏈領域其他參與者的戰略夥伴關係,使 SPERO,$$s$ 成為加密市場中一個具有競爭力和不斷演變的參與者。 結論 SPERO,$$s$ 是 web3 和加密貨幣潛力的見證,能夠徹底改變金融系統並賦能個人。憑藉對去中心化治理、社區參與和創新設計功能的承諾,它為更具包容性的金融環境鋪平了道路。 與任何在快速發展的加密領域中的投資一樣,潛在的投資者和用戶都被鼓勵進行徹底研究,並對 SPERO,$$s$ 的持續發展進行深思熟慮的參與。該項目展示了加密行業的創新精神,邀請人們進一步探索其無數可能性。儘管 SPERO,$$s$ 的旅程仍在展開,但其基礎原則確實可能影響我們在互聯網數字生態系統中如何與技術、金融和彼此互動的未來。

85 人學過發佈於 2024.12.17更新於 2024.12.17

什麼是 $S$

什麼是 AGENT S

Agent S:Web3中自主互動的未來 介紹 在不斷演變的Web3和加密貨幣領域,創新不斷重新定義個人如何與數字平台互動。Agent S是一個開創性的項目,承諾通過其開放的代理框架徹底改變人機互動。Agent S旨在簡化複雜任務,為人工智能(AI)提供變革性的應用,鋪平自主互動的道路。本詳細探索將深入研究該項目的複雜性、其獨特特徵以及對加密貨幣領域的影響。 什麼是Agent S? Agent S是一個突破性的開放代理框架,專門設計用來解決計算機任務自動化中的三個基本挑戰: 獲取特定領域知識:該框架智能地從各種外部知識來源和內部經驗中學習。這種雙重方法使其能夠建立豐富的特定領域知識庫,提升其在任務執行中的表現。 長期任務規劃:Agent S採用經驗增強的分層規劃,這是一種戰略方法,可以有效地分解和執行複雜任務。此特徵顯著提升了其高效和有效地管理多個子任務的能力。 處理動態、不均勻的界面:該項目引入了代理-計算機界面(ACI),這是一種創新的解決方案,增強了代理和用戶之間的互動。利用多模態大型語言模型(MLLMs),Agent S能夠無縫導航和操作各種圖形用戶界面。 通過這些開創性特徵,Agent S提供了一個強大的框架,解決了自動化人機互動中涉及的複雜性,為AI及其他領域的無數應用奠定了基礎。 誰是Agent S的創建者? 儘管Agent S的概念根本上是創新的,但有關其創建者的具體信息仍然難以捉摸。創建者目前尚不清楚,這突顯了該項目的初期階段或戰略選擇將創始成員保密。無論是否匿名,重點仍然在於框架的能力和潛力。 誰是Agent S的投資者? 由於Agent S在加密生態系統中相對較新,關於其投資者和財務支持者的詳細信息並未明確記錄。缺乏對支持該項目的投資基礎或組織的公開見解,引發了對其資金結構和發展路線圖的質疑。了解其支持背景對於評估該項目的可持續性和潛在市場影響至關重要。 Agent S如何運作? Agent S的核心是尖端技術,使其能夠在多種環境中有效運作。其運營模型圍繞幾個關鍵特徵構建: 類人計算機互動:該框架提供先進的AI規劃,力求使與計算機的互動更加直觀。通過模仿人類在任務執行中的行為,承諾提升用戶體驗。 敘事記憶:用於利用高級經驗,Agent S利用敘事記憶來跟蹤任務歷史,從而增強其決策過程。 情節記憶:此特徵為用戶提供逐步指導,使框架能夠在任務展開時提供上下文支持。 支持OpenACI:Agent S能夠在本地運行,使用戶能夠控制其互動和工作流程,與Web3的去中心化理念相一致。 與外部API的輕鬆集成:其多功能性和與各種AI平台的兼容性確保了Agent S能夠無縫融入現有技術生態系統,成為開發者和組織的理想選擇。 這些功能共同促成了Agent S在加密領域的獨特地位,因為它以最小的人類干預自動化複雜的多步任務。隨著項目的發展,其在Web3中的潛在應用可能重新定義數字互動的展開方式。 Agent S的時間線 Agent S的發展和里程碑可以用一個時間線來概括,突顯其重要事件: 2024年9月27日:Agent S的概念在一篇名為《一個像人類一樣使用計算機的開放代理框架》的綜合研究論文中推出,展示了該項目的基礎工作。 2024年10月10日:該研究論文在arXiv上公開,提供了對框架及其基於OSWorld基準的性能評估的深入探索。 2024年10月12日:發布了一個視頻演示,提供了對Agent S能力和特徵的視覺洞察,進一步吸引潛在用戶和投資者。 這些時間線上的標記不僅展示了Agent S的進展,還表明了其對透明度和社區參與的承諾。 有關Agent S的要點 隨著Agent S框架的持續演變,幾個關鍵特徵脫穎而出,強調其創新性和潛力: 創新框架:旨在提供類似人類互動的直觀計算機使用,Agent S為任務自動化帶來了新穎的方法。 自主互動:通過GUI自主與計算機互動的能力標誌著向更智能和高效的計算解決方案邁進了一步。 複雜任務自動化:憑藉其強大的方法論,能夠自動化複雜的多步任務,使過程更快且更少出錯。 持續改進:學習機制使Agent S能夠從過去的經驗中改進,不斷提升其性能和效率。 多功能性:其在OSWorld和WindowsAgentArena等不同操作環境中的適應性確保了它能夠服務於廣泛的應用。 隨著Agent S在Web3和加密領域中的定位,其增強互動能力和自動化過程的潛力標誌著AI技術的一次重大進步。通過其創新框架,Agent S展現了數字互動的未來,為各行各業的用戶承諾提供更無縫和高效的體驗。 結論 Agent S代表了AI與Web3結合的一次大膽飛躍,具有重新定義我們與技術互動方式的能力。儘管仍處於早期階段,但其應用的可能性廣泛且引人入勝。通過其全面的框架解決關鍵挑戰,Agent S旨在將自主互動帶到數字體驗的最前沿。隨著我們深入加密貨幣和去中心化的領域,像Agent S這樣的項目無疑將在塑造技術和人機協作的未來中發揮關鍵作用。

790 人學過發佈於 2025.01.14更新於 2025.01.14

什麼是 AGENT S

如何購買S

歡迎來到HTX.com!在這裡,購買Sonic (S)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Sonic (S)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Sonic (S)購買Sonic (S)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Sonic (S)在HTX的現貨市場輕鬆交易Sonic (S)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

1.6k 人學過發佈於 2025.01.15更新於 2025.03.21

如何購買S

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 S (S)幣價的意見。

活动图片