给Transformer变个形，LLM竟能变得更聪明

marsbit发布于2026-06-29更新于2026-06-29

文章摘要

一篇名为《给Transformer变个形，LLM竟能变得更聪明》的文章介绍了一项来自Mila、康奈尔大学和蒙特利尔大学研究者的新工作。该研究提出了“锥形语言模型”概念，其核心思想是：在模型总参数量和计算量不变的前提下，不再为所有网络层均匀分配参数，而是让参数容量（如前馈网络宽度）沿着模型深度方向单调递减。研究发现，传统Transformer等架构对所有层“一视同仁”的参数分配方式可能并非最优。多项前期研究已表明，模型的浅层和深层在功能与重要性上存在差异。研究者通过实验证实，将更多容量集中到模型前段的“头重脚轻”式分配，相比均匀分配或集中于后段的方案，能显著降低模型在验证集上的困惑度，提升预测准确性。在440M参数的模型上，最优的余弦递减配置（前段宽度为基准1.5倍，后段为0.5倍）使困惑度改善了1.84点。这一结论在多种不同架构和更大规模的模型上也得到了验证，且未损害模型处理长上下文的能力。分析显示，深层网络更多是在“重复强调”已有信息，而非创造新理解，因此前段层更能有效利用额外容量。这项研究指出了一个长期被忽视的设计维度：参数容量的分布形状本身就是一个有效的优化杠杆。它为提升模型性能提供了一个几乎零成本的思路，无需改变架构或增加参数，仅需重新分配已有参数。研究者认为，这一思路未来可能同样适用于视觉Transformer、扩散模型等其他领域。

2026 年 6 月,大模型行业正在经历一场前所未有的「开源海啸」:英伟达放出了 550B 参数的混合架构模型,谷歌送出多模态的 Gemma 新版本,智谱用最宽松的协议全量开源了自家旗舰模型。

几乎所有厂商讲述的,都是同一个故事:用混合专家(MoE)结构装下更多参数,用更稀疏的激活方式压低成本,用弹性的网络宽度去匹配不同的部署场景。

换句话说,整个行业正在拼命研究「怎么把更多的参数,塞进同样的算力预算里」。

但一篇来自 Mila、康奈尔大学和蒙特利尔大学研究者的新论文,提出了一个几乎相反方向的问题:如果一个参数都不多加,只是把模型里已经存在的参数「挪个位置」,会发生什么?

论文标题:Tapered Language Models论文地址:https://arxiv.org/abs/2606.23670

背景:被忽视的「一视同仁」

从 2017 年那篇开创 Transformer 的论文《Attention Is All You Need》开始,几乎所有的语言模型都共享同一种骨架,不管是经典 Transformer,还是后来的门控注意力、循环记忆网络,甚至是带「测试时记忆」能力的新架构,即:把若干结构完全相同的「层」叠在一起,每一层分到的参数量都一模一样。

这就像一家连锁餐厅,无论开在闹市区还是郊区,都配备完全相同数量的厨师和厨房设备,完全不考虑客流量的差异。这种「一视同仁」的分配方式,省心、好维护,但未必是最优解。

近年来,越来越多的研究从不同角度指出:模型的层并不是同等重要的。

「提前退出」实验显示,很多时候模型在还没跑到最后一层时,答案已经基本定型;

「层剪枝」研究发现,砍掉后面的一些层,模型表现几乎不受影响;

可解释性研究则发现,浅层网络捕捉的是语法这类「基础信息」,深层网络处理的才是语义这类「高级信息」。

换句话说,层与层之间天差地别,但参数分配却始终一视同仁。

这正是论文提出的核心疑问:既然层的重要性早已被证明是不均匀的,为什么层的「脑容量」还要被均匀分配?

把「脑容量」往前挪

研究团队先做了一个简单粗暴的验证实验:把一个 440M 参数的 Transformer 模型的层分成早、中、晚三组,在保持总参数量不变的前提下,让其中一组的「前馈网络」(FFN,模型中负责存储和处理信息的核心组件,可以理解为每一层的「工作记忆容量」)变宽,其余两组变窄。

结果非常清楚:把容量集中到前段的「头重脚轻」式分配,让模型在验证集上的困惑度(perplexity,衡量语言模型预测准确程度的指标,数值越低代表模型预测得越准)从 16.28 降到 15.96;而反过来把容量集中到后段,困惑度反而飙升到 17.29。

同样的参数总量,仅仅因为摆放位置不同,效果差出了一个多点,这在语言模型的评测体系里是相当大的差距。

这个发现把问题指向了更细的方向:与其用「一刀切」的三段式分组,能不能用一条更平滑的曲线,让容量从前到后逐渐递减?

研究者将这种思路命名为「锥形语言模型」(Tapered Language Models, TLMs):选定模型中任何一个决定参数量的维度(比如前馈网络的宽度),让它沿着深度方向单调递减,同时保证所有层的平均宽度依然等于原来的固定值。

这样总参数量和计算量都完全不变,只是分布形状从「长方形」变成了「楔形」。

团队尝试了三种递减曲线:线性递减、余弦递减、S 形(Sigmoid)递减。

这三种曲线的差异,类似于三种不同的「收摊」方式:

线性递减像是匀速关店,每一段时间关掉差不多数量的柱台;

S 形递减像是突然集中宣布闭店,大部分摊位维持原样,只有中间一小段急速收缩;

余弦递减则介于两者之间,两头平缓过渡,中段逐渐收紧,既不会「一刀切」地损失两端的灵活性,也不会平均用力而错过最该收缩的地方。

实验结果:免费的 1.84 个点

在 440M 参数的 Transformer 上做完五种宽度比例和三种曲线的组合扫描后,余弦递减以全面优势胜出:在最优配置下(前段宽度是基准的 1.5 倍,后段是基准的 0.5 倍),困惑度从均匀分布基线的 16.28 降到了 14.44,整整改善了 1.84 个点,且全程没有增加一个参数或一次额外的浮点运算。

更关键的是,这个结论不是某一个架构的运气。

研究团队把同一套配置(余弦递减、前后宽度比 1.5/0.5)原封不动地搬到另外三种结构迥异的架构上:带门控机制的注意力模型、具备「自我修改记忆」能力的 Hope-attention,以及拥有神经长期记忆模块的 Titans 架构,并在 760M 和 1.3B 参数两个更大规模上重新验证。

结果是:四种架构、两种规模,所有八组对比中,经过「锥形化」改造的模型在常识推理基准上的平均准确率全部提升,在 LAMBADA 语言预测任务上的困惑度全部改善。

研究者还额外做了长文本检索测试(Needle-in-a-Haystack),确认这种重新分配并不会牺牲模型处理长上下文的能力。

为了解释这种现象背后的原因,团队还测量了 GPT-2 系列模型中每一层「前馈网络」输出与已有信息流的相似程度,发现一个清晰的规律:越往模型深处走,每一层新写入的内容,跟已经存在的信息越像。也就是说,后段的层更多是在「重复强调」已有的判断,而不是在「创造」新的理解。

这恰好印证了为什么把容量从后段挪到前段是合理的:前段的层真正用得上这些额外的「脑容量」,后段的层用不上。

结语

这项研究本质上提出了一个朴素却被长期忽视的命题:模型的容量不该是均匀泼洒出去的资源,而应该流向真正需要它的地方。

在整个行业都在比拼「谁的参数更多」「谁的架构更稀疏」的 2026 年,这篇论文提供了一个几乎零成本的替代方案:不需要换架构,不需要加参数,只需要换一种分配的「形状」。

研究者也坦言,目前的最优配置是在一个 440M 参数模型上调出来的,是否存在更适合不同规模、不同架构的「专属配方」,仍是开放问题。

但更值得关注的是,论文指出这套思路并不局限于语言模型——视觉 Transformer、扩散模型、多模态模型,几乎都继承了同一种「层层均分」的默认设定。如果容量分配的形状本身就是一个被长期忽视的设计维度,那么这把「藏在明处的免费杠杆」,或许才刚刚被人注意到。

团队简介

论文由 Mila(蒙特利尔学习算法研究所)的 Reza Bayat、康奈尔大学的 Ali Behrouz,以及 Mila 联合创始人、蒙特利尔大学教授 Aaron Courville 共同完成。

Ali Behrouz 目前是 Google Research 的研究员、康奈尔大学博士生,过去两年里参与设计了多个引发广泛关注的新架构,包括能够「在测试阶段学习记忆」的 Titans 架构,以及后续的 Atlas 和「嵌套学习」(Nested Learning)框架,长期专注于如何让模型更高效地利用和存储长期上下文信息。

Aaron Courville 则是深度学习领域的资深学者,CIFAR AI Chair,长期与 Yoshua Bengio 共同推动深度学习基础研究,在表征学习和生成模型方向有深厚积累。他也是生成对抗网络(GAN)的作者之一,并与 Ian Goodfellow 和 Bengio 合著了经典著作《Deep Learning》。

本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:关注AI的

你可能也喜欢

闪电五连鞭！Strategy自救方案正式出炉

深陷STRC脱锚危机的Strategy公司正式公布自救方案，旨在稳定其优先股（尤其是STRC）信用并改善流动性。核心措施包括： 1. **强化现金储备**：设立约25.5亿美元美元储备，专用于支付优先股股息及债务利息，可覆盖约17.4个月支出，并承诺储备不低于未来12个月支出。 2. **调整股息政策**：自7月1日起将STRC年化股息率上调至12%，但强调不会简单将“脱锚等同于加息”。 3. **启动回购计划**： * 批准最高10亿美元优先股（特别是STRC）回购计划，以直接支持二级市场价格、减少未来股息支出并改善资本结构。 * 同步批准最高10亿美元普通股（MSTR）回购计划，旨在股价低估时为股东创造价值。两项回购均承诺不使用保障股息的美元储备。 4. **比特币变现授权**：正式批准出售部分比特币，用于补充现金储备、支付股息利息或为回购提供资金。此举将BTC纳入资本管理工具箱，但公司强调其核心仍是长期持有。市场反应积极，方案公布后MSTR与STRC盘前股价均显著上涨。该框架能否成功帮助STRC回归面值并重启公司融资循环，成为后续关注焦点。

Odaily星球日报45分钟前

Odaily星球日报45分钟前

AI牛市的悬头之剑：不只是韩国，美股杠杆同样触目惊心

全球股市在AI热潮推动下不断创出新高，但支撑这轮涨势的杠杆融资已达到危险水平，正成为市场潜在的重大风险。数据显示，美国融资融券余额在5月同比增长54%，达到1.4万亿美元的历史峰值。与此同时，杠杆ETF总资产规模在短短两个多月内接近翻倍，突破2200亿美元。投资者大量涌入追踪科技股、半导体指数及英伟达等单股的杠杆产品。这种高杠杆具有顺周期放大效应。巴克莱警告，杠杆基金已积累约3000亿美元衍生品头寸，一旦市场转向需要集中平仓，冲击力将非常巨大。杠杆ETF的资金流动还会反过来影响所追踪股票的走势，形成“尾巴摇动狗”的负向螺旋。韩国市场近期剧烈震荡已敲响警钟。KOSPI指数因高度集中于芯片股且叠加极端杠杆，出现单日暴跌10%触发熔断、随后又急速反弹的极端行情。韩国监管机构对散户大量参与高风险杠杆产品表示担忧。此外，股票融资成本正在飙升。摩根士丹利指出，融资变得昂贵且稀缺，边际买家正在消失。市场上涨过于依赖少数板块的杠杆资金，结构脆弱。一旦市场回调触发去杠杆，卖压将被成倍放大，可能导致远超预期的跌幅。分析师警告，此前通过杠杆放大上涨动量的力量，在市场转向时可能开始反向切割，形成非线性冲击。当前金融条件实际上已在收紧，但被股市上涨的表象所掩盖，投资者需警惕潜在的去杠杆风险。

marsbit54分钟前

marsbit54分钟前

Solana剑指80美元大关——推动SOL牛市持续上行的三大因素

Solana（SOL）近日展现出强劲的看涨势头。在跌至69美元低点后，其成功守住70美元关口，并一度触及73美元的局部高点，目前交易价格约为72美元，日内上涨2.6%，交易量也大幅增长39%。从技术图表来看，SOL价格稳定在9日和21日移动平均线之上，市场结构保持看涨。随机动量指数（SMI）日前形成看涨金叉，并持续上行，显示市场动能正在改善。此番走强很大程度上由鲸鱼（大户）情绪转变驱动。数据显示，鲸鱼在现货市场的平均订单规模集中在70至71美元价位附近。与此同时，Solana的现货净流出在过去一周多数时间为负值，目前约为-11.2万美元，这表明鲸鱼可能正在持续积累SOL，而非抛售。综上所述，在鲸鱼积累和积极技术指标的支持下，如果市场需求能够持续吸收卖压，SOL有望在短中期内重新测试75美元，并上探80美元阻力位。然而，若鲸鱼需求减弱，价格可能再次跌破70美元，并向下一个关键支撑位62美元寻找支撑。

ambcrypto59分钟前

ambcrypto59分钟前

Strategy 推出「数字信用资本框架」：授权卖币 12 亿美元，「永不卖币」剧本终结

Strategy（原MicroStrategy）宣布推出“数字信用资本框架”，标志着其过去“只买不卖”的比特币策略发生根本转变。该公司授权出售最高12.5亿美元的比特币，用于补充现金储备、支付股息和回购证券。此举的直接导火索是其优先股STRC价格跌破面值约24%，且公司年化股息义务已飙升至约12亿美元，融资飞轮难以为继。新框架要求建立25.5亿美元现金储备，以确保覆盖至少12个月的股息支付。近期公司已大幅放缓购币，转而通过出售普通股来补充现金。此外，框架还授权各自最高10亿美元用于回购优先股和普通股，试图收窄其证券的交易折价。这一系列动作是在多重压力下推出的：公司面临法律调查，累计债务约82亿美元，且比特币市价已跌破其持仓平均成本，账面浮亏严重。新框架旨在为公司资本结构“止血”，但其效果最终取决于比特币价格走势及市场信心。

marsbit1小时前

Strategy 推出「数字信用资本框架」：授权卖币 12 亿美元，「永不卖币」剧本终结