Token不经济

marsbit发布于2026-06-29更新于2026-06-29

文章摘要

这篇文章讨论了当前企业使用AI工具时普遍面临的“Token不经济”现象,即Token消耗成本与产出价值严重不匹配。文章从多个角度分析了此问题的成因。 在供给端,大模型定价策略整体抬升了使用成本。领导者如Anthropic凭借编程优势确立高端定价权,实现“好货不便宜”;追赶者如OpenAI和Google则采取价格竞争;而面向大众的经济型模型市场,因需求量爆炸式增长,价格中枢也在悄然上移。 在技术层面,智能体(Agent)工作流中存在多种结构性消耗,包括:上下文陷阱(历史信息被反复计入)、分词器黑箱(闭源模型更新导致Token计数膨胀)、技能冗余调用(大量Token耗费在无关说明上),以及多Agent协同中的“沟通税”和长任务中的“熵增”。这些技术性损耗对缺乏背景知识的普通用户尤其不友好。 更根本的挑战在于需求端。目前Token的高效应用场景高度局限于编程等数字化水平高的领域,因其能形成低成本、自动化的训练反馈闭环。然而,在大多数传统行业及物理世界任务中,由于数字化程度低、验证成本高昂,AI难以有效落地并创造显著价值,限制了Token产生实际经济收益的范围。 这种“不经济”状态加剧了产业链风险。风险向中游模型厂商集中,其与上游硬件商的“循环融资”可能滋生估值泡沫和金融风险。同时,算力扩张对水、电等资源的争抢,也对社会民生造成挤压。 文章最后指出,缓解“Token不经济”需从供给和需求两端发力。技术上进行精细化优化,如上下文压缩、技能精简和模型路由;商业上则需加强企业内部的Token成本治理,并努力在传统行业中寻找具备可行性的应用场景,跨越数字与物理世界的鸿沟。最终,行业需要回归投资回报率(ROI)这一金标准,推动AI从炫技阶段走向高效、实用的生产阶段。

近期部分媒体爆出微软收回内部Claude Code许可 1 。Claude Code是Anthropic推出的AI编程工具,在微软内部开放仅6个月就成为最受欢迎的辅助开发软件之一,随之而来的是token消耗剧增,成本暴涨,但产出质量不尽如人意。多重考虑下,微软踩下刹车,将员工导向自家的Copilot CLI。

Token消耗与实际产出不成比例的现象在其他平台企业也普遍存在。Uber仅用4个月就耗尽了2026全年AI编程工具预算;亚马逊部分员工无意义消耗token;Meta悄悄撤下内部员工的Tokenmaxxing排行榜,不再鼓励无产出的token消耗 2 。人人都在拥抱AI,但还没有找到正确的姿势;企业都在强调AI原生,但(暂 时 )没看到收益,只看到越来越长的账单。我称之为“token不经济”。

Token不经济是企业内部管控不力、token使用回报有限、Agent本身的架构设计 (如Skill重复调用、长程任务的内耗、多智能体协同成本) 等多重因素互相叠加的结果。未来,这些问题可能会随着内控的精进、技术面消耗不断优化而逐步缓解。但若要将token净收益转正,则不仅需要从供给端入手优化Token成本,还需要从需求端入手,解决如何让Token消耗在广泛的产业场景中产生实际价值的难题。

好货不便宜

过去两年,主流大模型快速迭代,开发企业根据自身市场定位采取不同产品组合策略,API调用价格 ($每百万token) 随之改变。模型性能大幅提升,但好货不便宜,同一分层产品的调用价格也在悄悄提升,成为推高下游使用者token消耗成本的重要原因。

领导者的分层策略

Anthropic 是闭源模型厂商中最早认识到编程是token变现核心场景的公司。大模型的主要付费用户是开发者和企业技术团队,他们对价格不敏感,更看重模型的编码效率和质量。掌握编程这一商业场景的先机,就可以实现token溢价。

因此Anthropic在研发上专注编程。在确立编程能力优势后,自2024年初推出 Claude 3 系列起,在业内率先采用旗舰-中端-轻量的立体产品组合,实现同代模型分层定价,同时抢占高端和大众市场。Opus系列定位为编程业内标杆,以 $15/$75 (输入/输出百万token价格,下同) 的定价锚定高端市场;Sonnet系列 ($3/$15) 为日常编程和办公任务提供高性价比选择;Haiku系列 ($1/$5) 面向轻量、快捷互动场景,价格亲民。这种精细的层级划分使 Anthropic 能够在每一价格带最大化利润提取,同时保护市场份额。

这一定价策略让作为技术领导者的Anthropic的竞争手段更多、操作更灵活。例如,在觉察到与竞品性能差距快速缩小后,借Opus4.5发布大幅降价,挤压竞品市场空间。再如,随着新一代模型Mythos Preview ($25/$ 125 ) 发布,在Opus上置入新的超高端分层,抬升了旗舰产品价格,逆转之前高端产品不断降价的趋势。随后发布的 Fable 5 采用同一底层架构,以安全为由对部分功能进行限制,采用 $10/$50 的价格 (仍是Opus系列的两倍) 面向更广泛市场。不仅按性能定价,更按安全约束的松紧程度定价,形成能力分层、风险分层、定价分层的三维定价策略,重新拿回溢价市场。

这一定位策略的效果在2025年至2026年间得到了充分验证。Anthropic 的年度经常性收入 (ARR) 从2024年底的约10亿美元飙升至2026年5月的约450亿美元 3 。更重要的是,这一策略充分保护了作为产品力领导者的市场溢价,依靠性能优势跳出卷价格的窠臼,完成好货不便宜的价值闭环。

追赶者的价格拉扯

相比之下,OpenAI 和 Google 在大模型商业化的早期阶段选择了与Anthropic不同的多元化路径。OpenAI 在2024年曾将大量资源投入 Sora等多模态项目;Google 则围绕 Gemini 构建了覆盖搜索、云服务、Workspace 等多条产品线的生态策略。这些投资虽然拓展了技术版图,却因资源被分散,在办公和编程场景上表现相对并不突出。当意识到编程才是模型能力变现的主战场,返身再来追赶时,已经失去先手优势。

OpenAI 的返身非常坚决。一方面重新聚焦编码和 Agent 能力,砍掉 Sora等消耗巨大项目;另一方面,跟随Anthropic建立自己的分层产品矩阵,一对一紧逼盯人,同时刻意拉大旗舰模型和轻量模型的价差,旗舰高价守住领先模型的招牌,轻量低价抢夺市场份额。GPT 5.5 的定价 ($5/$30) 与Opus 4.7/4.8 ($5/$ 25 ) 看齐,建立与 Claude Opus 同等的高端价格锚点,次级模型GPT 5.4 mini ($0.75/$4.50) 和nano ($0 .20/$1. 25) ,大幅低于同级 Claude Haiku 4.5 ($1.00/$5.00) ,以价格换市场。

Google 是安卓生态体系的核心,已经有完整的商业闭环,需要处理的关系更为复杂,动作也更谨慎。Gemini 需同时服务于 Google Cloud 的企业客户、Workspace 的生产力用户、以及搜索产品的消费者体验。即便意识到编程的重要性,也无法决然将资源全部聚焦于编程和办公,还是要走多模态、多元化路线。

Google也是紧随Anthropic从1.5代 Gemini开始将产品分为旗舰Pro系列和轻量Flash系列,但产品迭代速度相对较慢,价格定位更低。2024年初的旗舰模型Gemini 1.5 Pro在短prompt (<1 28k ) 情形下输出百万token价格仅为5美元,是同期GPT-4o的三分之一,Opus 3的十五分之一;2026年2月发布的Gemini 3.1 Pro百万token输出价格提升至12美元,显著低于同期GPT 5.4的15美元和Opus 4.6/4.7的25美元。不仅如此,Google还搞了一个反向操作,在轻量产品线Flash下面加入超轻量产品线Flash-Lite,将调用价格压到与开源模型同样的水平线,这是典型的以价换量。

而被市场殷切期盼的 Gemini 3.5 Pro 迟迟未能正式发布,也反映出 Google 在平衡性能、安全性和生态适配方面面临的内部博弈。新一代旗舰模型的定价策略,也被市场高度关注。

图1:旗舰模型定价变化趋势 Claude 系列及 GPT-4o/4.1/5.4 的定价来自官方定价页;GPT-5.5 系列、Gemini 3.5 Flash 的定价来自 OpenAI/Google 平台及第三方汇总;GLM 系列定价基于海外 Z.ai 平台,具体价格受汇率波动和双轨定价影响。绘图:Codebuddy

次级/轻量和开源/半开源模型市场在需求爆发中默默涨价

旗舰模型拼性能,次级/轻量模型卷价格,是市场竞争理所应当的正确姿势。面对激烈的市场竞争,一般预期是市场价格中枢会不断下降。但实际情况却恰恰相反,由次级/轻量-开源/半开源模型构成的经济型token市场,价格中枢在过去两年悄然上移,而token市场价格地板的真正抬升正是在这样的上移中完成的。

表面上看,这是一片杀疯了的红海。Sonnet、mini、Flash等收费低廉的次级/轻量模型是主流闭源模型面向大众市场的经济实惠装,主要目标是抢夺市场份额。与此同时,DeepSeek、Qwen 和 GLM 等开源或半开源模型迅速崛起,普遍采用旗舰定位、次级/轻量定价的策略,给次级/轻量闭源模型市场带来持续的价格压力。2024年底,DeepSeek V3 以约 $0.27/$1.10 的定价切入市场,远低于同级闭源模型。稍后推出的R1 以 $0.55/$2.19 的价格提供推理增强能力,直接压缩了 GPT-4.1 mini 和 Claude Haiku 的定价空间。GLM-4 Plus 以仅 $0.69/$0.35 的价格提供接近 GPT-4 级别的能力,对价格敏感的开发者群体构成了极大的吸引力。卷价格似乎是这一分层市场的常态。

但另一方面,每一代次级/轻量和开源/半开源模型的推出,都伴随着价格地板的抬升。例如2024年10月推出的Haiku 3.5,输入/输出定价为$0.80/$4.00;一年后Haiku 4.5的定价上浮20%到$1.00/$5.00。差不多同一时间,GPT mini系列定价几乎翻番,从 4o mini的$0.15/$0.60上浮至4.1 mini的$0.40/$1.60。Gemini Flash系列也同样,从2.0 Flash的$0.10/$0.40超低定价,上浮至2.5 Flash的$0.30/$2.50,百万token输出定价翻了6倍还多。开源/半开源模型如GLM 系列,GLM-5 在海外市场的定价较 GLM-4.7 提升了约67%到100%。用智谱自己的话,这次大幅提价,显示出国产模型的技术能力和市场竞争力正在快速提升。

产生这一现象的根本原因是经济型token消费量的爆炸式增长。大多数日常编码任务、文档处理和自动化流程并不需要 Opus 或 GPT-5.5 级别的能力,而是由 Sonnet、mini、Flash 等模型承担,或交由开源/半开源模型完成。随着 AI 编码助手、Agent 工作流和企业级 AI 应用的普及,这些次级/轻量-开源/半开源模型的调用量激增,远超旗舰模型。一方面,这使得经济型模型消耗快速上升,烧现金维持低价的游戏无法持续;另一方面,这也为厂商开拓了提价空间,涨价的同时需求仍在快速增长。因此,即便是在经济型token市场,竞争逻辑也从哪家token更便宜转向哪家token性价比更高。不论是Claude Sonnet/Haiku、GPT mini/nano、Gemini Flash,亦或是DeepSeek、Qwen、GLM系列,都出现定价中枢抬升的趋势。

从上面的分析大概可以看到,token市场正在经历一个高端定价格局固化、中端量价齐升、经济型跟随追涨的整体抬升过程。Anthropic 凭借编码能力领先建立了行业最强的定价权,OpenAI 和 Google 正在加速追赶但短期内仍需以价换量,而开源/半开源模型在持续抬升定价地板的同时也开始分享市场增长的红利。这一格局的演变将深刻影响整个 AI 产业的利润分配和竞争态势。在消耗大增、单价上涨的token 市场,与模型厂商收入爆发相对应的,必然是下游token使用者的成本攀升,是终端消费token不经济的底层原因。

图2:次级/轻量和开源/半开源模型定价趋势 Claude 系列及 GPT-4o/4.1/5.4 的定价来自官方定价页;GPT-5.5 系列、Gemini 3.5 Flash 的定价来自 OpenAI/Google 平台及第三方汇总;GLM 系列定价基于海外 Z.ai 平台,具体价格受汇率波动和双轨定价影响。绘图:Codebuddy

智能体的隐形消耗

token越来越贵固然伤及荷包,更让人心疼的是不少token在调用智能体 (Agent) 干活时被系统性地浪费掉了。上下文陷阱 (Context Trap) 、分词器黑箱 (Tokenizer Black Box) 、技能冗余 (Skill Redundancy) 、以及多Agent协同中的沟通税与长程熵增 (Communication Tax and Entropy Drift) ,这些结构性的跑冒滴漏叠加在一起,构成了token不经济的内部技术根源。

上下文陷阱

模型推理需计算每个token和其他token的关系,因此上下文越长,计算负担越重,token消耗越多。同样一个问题,没有头尾的丢给Agent,消耗不了几个token。但如果是带着历史对话、工具日志、代码文件、报错信息和多轮讨论,输入token的消耗可能多出几个数量级。

而Agent架构天然放大长文本陷阱。智能体会将问题拆解,规划调用工具,读文件,检查反馈,修改方案,再调用工具,循环往复,每一步都可能把历史记录重新带进上下文。同一批信息被反复读取,同一个任务被反复计费。Salim et al., (2026) 对ChatDev框架的分析发现,代码审查阶段 (Code Review) 消耗的token平均占总消耗的39.5%,是所有开发阶段中最高的 4 ,这意味着近四成的token花费在了Agent之间反复传递已有信息的过程中,而非真正生成新内容。

图3:对ChatDev框架30个任务中各阶段Token消耗占比的分析 Salim, et al., (2026). Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering. Proceedings of the Mining Software Repositories Conference (MSR).

分词器黑箱

分词器 (Tokenizer) 是大模型训练的基础,决定同等参数量下模型的信息密度上限、有效上下文长度下限和边缘case (数字/代码/多语种) 的可靠性。分词越合理,模型训练和推理就越高效、稳定。开源/半开源模型的分词器和权重通常是公开的,而闭源模型的分词器是“黑箱”,分词器的更新换代往往伴随着token密度的变化。

2026年4月Anthropic发布Opus 4.7的同时,更换了底层分词器。根据Anthropic官方文档披露,分词器调整主要考虑模型训练的实际需求,为提升性能采用更细粒度的子词分割方案,副作用是同样长度的文本,token数量膨胀了1.0倍至1.35倍 13 。多家独立测试机构的结果显示实际膨胀倍数更高。企业AI成本管理平台Finout针对真实企业prompt的加权实测显示,技术文档与英文密集代码文件的平均膨胀率达到1.47倍 (+47%) 14 ;ClaudeCodeCamp对七种真实文件类型的综合测试结果为平均1.325倍 (+32.5 % ) 15 ;开发者Simon Willison通过API直接比对发现,同一份系统提示词在新分词器下从5,039 tokens膨胀至7,335 tokens (+46%) ,而高分辨率图片的token膨胀更是高达3.01倍 ( +201 %) 16 。

更早之前,OpenAI在发布GPT-4o时将分词器从cl100k_base升级为o200k_base,词表规模扩大了近一倍,官方说明此举旨在提高压缩率并增强多语言处理能力 17 。然而,词表膨胀本身并不意味着同等文本的token计数减少,实际上对于非英语内容 (尤其是中文、日文等CJK字符) ,新分词器的切割粒度变化可能导致token数不减反增。

关于更细颗粒度的分词是否能提升模型表现,目前尚缺乏来自模型厂商的系统性公开论证。Anthropic在Opus 4.7的变更文档中将新分词器归入Breaking Changes条目,仅描述了事实层面的变更 (更细粒度的子词分割) ,未详细解释技术动因或性能收益。社区中有研究者指出,更细的分词理论上可以丰富模型的词汇表征能力,尤其有利于代码理解和结构化数据处理 (JSON、XML等格式在Opus 4.7中触及了最高的1.35倍膨胀上限) ,但这种潜在的性能增益是否足以合理化近50%的成本增幅,是一个悬而未决的问题 13 。

分词器迭代频率明显低于模型更新,但事关token的最基本计费标准,且变化隐藏在技术细节之中,普通使用者几乎不可能察觉。闭源模型对分词器更是讳莫如深,有可能成为加重token不经济的原因之一。

技能的无意义调用

技能 (Skill) 是让Agent架构更专业的关键工具之一。有人把技能看成是长一点的markdown,有人把技能当成一个装了各类参考文献和操作说明的文件夹,也有人把技能理解为一段超长的结构化prompt。在实际的推理和Agent任务中,很多技能过长过杂,加大了token消耗。

Gao et al., (2026) 对55,315个公开技能的大规模实证研究揭示了技能的无效加载是如何浪费token的 5 。在路由层面 (即Agent决定是否调用某个技能的环节) ,高达26.4%的技能完全没有路由描述,像一本本没有目录的工具手册,大大增加被Agent无效加载的概率。在正文层面,超过60%的技能内容不是可直接执行的操作规则,而是背景解释或示例文本,使用技能的大部分token花在了阅读说明书而非干活上。更严重的是,部分技能会密集引用文件,单次调用就会注入数万乃至十余万token,其中可能只有很小比例与当前任务相关。

Han et al., (2026) 的SWE-Skills-Bench基准测试进一步证实了技能效用的有限性 6 。该研究在真实GitHub项目上测试了49个公开软件工程技能,结果显示39个技能 (79.6%) 没有带来通过率的任何提升 (有技能和无技能的Pass率相同) ,全部49个技能的平均效用增量仅为可怜的1.2个百分点,然而token开销最高增加了451%。仅有在编码特定领域专业知识的7个技能 (如金融风控公式、云原生流量管理、GitLab CI模式) 带来了有意义的性能提升 (最高提升30个百分点) ;更有3个技能因版本冲突导致性能下降 (最高下降10个百分点) 。这说明技能的效用高度依赖场景匹配度,盲目调用只会徒增成本。

多Agent的废话与长任务的跑偏

多Agent是目前受青睐的工作方式,让使用者一个人领导一个由AI构成的团队,写代码的、审查的、测试的、修复的,多个Agent各司其职,互相监督,在很多情况下确实提高了输出质量。但机器之间也会开无效会议,对话中不断重复已经讨论过的任务背景、之前的结论、格式化套话,每重复一次,就再消耗一遍token,Salim et al., (2026) 称之为多Agent系统的沟通税 (communication tax) 4 。

此外,将复杂的长程任务 (long task) 交由多Agent系统完成,正在成为编程和办公的主流做法,并逐渐扩展到餐饮、出行等日常生活的场景。长程任务本身就存在容易跑偏的问题。此类任务的上下文里塞满工具输出、报错、草稿、日志,很容易造成模型推理逐渐偏离目标。为了纠偏,开发者往往会要增加摘要、记忆、检查、回滚等机制,带来更多token消耗。Luo et al., (2026) 在对TabTracer研究中观察到,传统链式推理在路径过长时容易陷入循环状态,对抗性注入可以故意触发这种循环,使Agent在错误路径上反复消耗token而不自知 7 。这种维持稳定所需的额外消耗通常被称为熵税 (entropy tax) ,系统越复杂,Agent越自由,越需要监督,任务越长,上下文越大,熵税增长越快。一个看似高效的Agent团队,token账单中可能有超过一半花在了内部协调与自我纠偏上。

上下文陷阱、分词器黑箱、技能的无意义调用、废话文学和长任务跑偏,这些因素叠加在一起,对token消耗的效果不是简单的加和,而是乘积性的指数增长。更值得注意的是,这些技术性损耗对不同使用者的影响是不对称的。具备技术背景的开发者可以通过调整系统提示词 (System Prompt) 、裁剪技能内容、设置上下文窗口管理策略等方式在一定程度上缓解这些问题,但对于缺乏技术背景的普通企业用户而言,他们既不理解Agent内部的token流转机制,也无法有效干预其行为模式,只看到账单上的数字在不断增长,却不知道钱究竟花在哪里、为什么花了那么多。在这个意义上,token不经济不仅是一个技术效率问题,更是一个技术平权问题。AI工具的使用门槛,从会不会写代码变成了能不能理解Agent架构的成本动力学。现实中大多数智能体的使用者并不具备相关技术背景,被置于结构性劣势之中。

寻找真实的需求

比起定价、无效消耗等种种供给端的问题,应用端的局限性是造成token不经济的更重要的原因。尽管模型性能在过去两年取得了令人瞩目的进展,但token的通用性仍然相当有限。目前的token的使用大都局限在数字化水平较高的场景中,比如编程辅助、文档处理、数据分析。跳出这些优势部分,大模型性能会随着应用场景数字化水平下降而急剧衰减。到了数字化程度极低的线下服务业态,如餐饮、家政、零售终端、现场维修,token能够独立完成的任务都局限在已经高度数字化的流程管理部分,很难实际参与现场操作。

这不是说AI永远无法进入这些领域,而是说当前的纯语言模型范式 (token-in, token-out) 与现实世界之间存在着一条结构性鸿沟。这一问题在移动互联网时代就存在,是数字技术未能从根本上改变第一和第二产业的根本原因。人工智能的发展为跨越这条鸿沟提供新的可能,科学智能 (AI for Science) 、世界模型 (World Model) 、机器人系统等基础性研究正在取得进展。过去两年 诺贝尔物理学奖和化学奖被授予人工智能科学家 ,Figure、Tesla Optimus、宇树等人形机器人取得显著进展。但在这些前沿领域目前仍处在实验室阶段,在取得划时代的应用层突破之前,token大概会持续困在高度数字化场景中。

编程是通用的特例

编程是目前大语言模型表现最好的应用场景,但这一场景并不具有普遍的代表性,更准确的描述是具有通用性的特例。

通用性是说,编程输出的是Agent的通用语言,可以在数字化基础较好 (流程和文件已经数字化并由算法驱动) 的场景中,直接驱动不同类型的Agent协助完成多种多样的任务。从这个角度看,Anthropic专攻编程的Claude Code,以及Open AI的GPT Codex成为目前市场上最受欢迎的Agent产品并非偶然。

特例是指编程场景在模型的后训练环节具备极大优势,一是确定的信号反馈,模型生成的代码跑一遍,编译器、解释器、单元测试立刻可以给出精准、结构化、毫无歧义的对错判断,二是在这样的自动信号反馈基础上,可以高效形成自动的后训练闭环,将反馈毫无阻碍地接进强化学习回路,智能体在数字沙盒里高速生成、报错、自我修正。这样的自主训练环境在其他场景中很少见,甚至基本不可能形成。

一旦离开编程,模型训练的效率会大幅降低。在数字化程度相对较低、无法形成自动后训练闭环的传统商业世界,如管理决策、法律谈判、临床医疗、供应链物流,数据采集和结果验证成本会吃掉任何token经济。拿不到低成本的反馈信号的智能体,也就无法完成指数级自我进化,难以重复其在编程上的巨大成功。

2023年2月,A&O Shearman (原Allen & Overy) 率先与法律领域的垂直大模型公司Harvey AI达成独家战略合作,将后者开发的AI法律助手部署在前者遍布全球43个办公室 18 。在为期数月的试用期内,A&O Shearman在全球的3,500余名律师向Harvey提交了约40,000次查询请求,涵盖合同起草、法规检索、尽职调查等多项法律工作流程,确实提高了工作效率 19 。

硬币的另一面,A&O Shearman在其官方新闻稿中明确指出,Harvey AI生成的所有输出都需要经过执业律师的仔细审查后方可使用 18 。AI并未真正替代律师的专业判断,仅在原有工作流程之上新增了一个AI初审环节。资深合伙人在接受AI标注后的合同草案时,投入的复核时间几乎等同于从头审阅原始合同所需的时间。当然,人工审核的结果反馈是后续模型训练的高价值数据,但这样的反馈成本显然较编程这样的自动闭环高出太多。 不能排除未来当反馈数据积累到某一临界点 ,智能体在现实场景的表现会大幅提升,逼近甚至超越专业人士的水平。但与编程相比,这一临界点的来临还有相当长的路要走。

向物理世界的艰难跨越

法律工作任务的主要内容仍然是大量文字处理,是一个数字化水平较高且肯定会被高度数字化的场景。当工作任务中可被数字化、可以从数字世界中直接控制和操作的成分降低,智能体能够完成的任务比例也会随之降低。虽然现实世界的设施大多由软件驱动,但单纯依靠智能体写代码来控制物理世界,仍然面临巨大的障碍。

以人形机器人 (humanoid robot) 的发展为例,虽然已经在马拉松比赛中超越了人类最好成绩,但人形机器人在大部分现实世界的任务仍在艰难挣扎。清洁、搬运、开门、穿越杂乱场景,这些对人类来说轻而易举的动作,对机器人而言却是巨大挑战。所以Moravec (1988) 讲“让计算机在智力测验或下跳棋中表现出成人水平的成绩相对容易,而要赋予它们一岁幼儿的感知与行动能力却极其困难,甚至不可能。”(It is comparatively easy to make computers exhibit adult-level performance on intelligence tests or playing checkers, and difficult or impossible to give them the skills of a one-year-old when it comes to perception and mobility),接近四十年后的今天,这句话的含金量仍在上升 23 。李飞飞在长文《From Words to Worlds》中,把空间智能与具身智能列为需要更长时间才能成熟的中期目标 8 。原因在于,现实世界没有编译器,物理世界不接受迭代,只接受验证,而验证的成本永远比生成的成本高。

曾被寄予厚望的仿真技术虽然起到一定效果,但要实现类似Agent自适应在编程场景中的效能,还有很长的路要走。仿真技术是为绕开物理世界没有编译器的难题,用数字孪生和物理引擎搭一个虚拟验证空间。但具身智能发展还是撞上了虚拟与现实鸿沟 (Sim- to-Real G ap) ,在简化沙盒里靠海量Token练出的最优控制轨迹,一碰上真实世界的摩擦、材料疲劳和环境噪声,立刻变得极其脆弱。Aljalbout et al., (2025) 认为仿真到现实的差距并非单一问题,而是由动力学差异、感知失真、执行器非线性、系统设计缺陷等多个子差距叠加而成,完美仿真器在计算上不可行 20 。

此外,仿真训练策略往往会利用建模中不准确但确定的边界条件获得虚高的性能表现。但若部署到真实环境,这些策略往往并不可靠,甚至会带来风险。例如OpenAI的Dactyl灵巧手项目,用64块NVIDIA V100 GPU和920台32核CPU服务器在仿真中累计了相当于13,000年工作量的训练经验,使机械手操作方块达到极高的成功率 21 。但灵巧手在面对真实世界中非预设的材质、温度和磨损变化时,鲁棒性迅速下降。2021年,OpenAI解散了整个机器人团队。联合创始人Wojciech Zaremba在解释这一决定时表示,资源需要转移到更容易取得成就的领域 22 。尽管官方未将Sim-to-Real Gap列为主因,但行业普遍认为,仿真训练的高昂算力成本与真实部署的不确定性之间的矛盾,是促使OpenAI放弃机器人方向的重要因素之一。

在真实的物理世界验证模型表现,时间和资本成本比虚拟世界高出几个数量级,而这样的真实测试是无法被取代的。这种非对称的验证成本从一个侧面说明了编程场景的特殊性,算法不是万能的,token也不是。

如果token的有效应用范围长期局限于编程和少数数字场景,始终无法跨越从数字世界到物理世界的鸿沟,AI产业化和产业AI化的可持续性就要打一个大大的问号。Token经济的未来,取决于我们能否把token的有效射程从数字孤岛拓展到更广阔的真实世界。在物理世界的真实需求爆发之前,token不经济可能会持续很长时间。

Token不经济的溢出风险

Token不经济在整个AI产业链条上的分布并不均衡。上游基础设施和硬件厂商在当下的固定资产投资热潮中赚得盆满钵满;中游的模型厂商仍在比拼产品性能,高昂的资本支出挤压现金流;下游应用效果因人而异,因场景而异,大部分企业仍在持币观望。产业链风险在向中游聚集,而中游的模型厂商正在资本市场建立起一个个循环融资的小圈子。持续累积的token不经济风险一旦爆发,必然会牵动金融市场,甚至影响民生稳定。

产业链风险的不均衡分布

Token-Agent热潮拉动巨额资金投向上游的数据中心、网络和芯片制造,以及电力和能源基础设施。台积电2026年资本支出预计达520至560亿美元 9 ,微软、Alphabet、亚马逊与Meta在2025至2026年的AI基建投入合计远超3000亿美元并向逼近7000亿美元的量级攀升 10 。中游的大模型厂家是本轮AI投资浪潮的发动机、所有有关AI乐观预期的锚点、“全村的希望”。但主要厂商虽然营收爆发增长但仍深陷亏损,算力采购成本居高不下。OpenAI预计要到2030年前后才可能盈利 11 。而下游真正在用Agent干活、真正在烧token的企业用户已经开始控成本。毕竟尚未看到合理回报,那么为token设预算上限、做成本归因、收紧使用许可,都是顺理成章的管理动作。

我们对比了AI产业链上下游具有代表性的上市公司过去两年的自由现金流 (FCF=经营性现金流 - 资本支出) 变化和最近一年的净利润率 (图4) 。2025年,处于产业链上游的台积电 (44.5%) 和英伟达 (55.6%) 不仅净利润率更高,自由现金流更取得14.5%和58.8%的高速增长。相比之下,处于产业链下游的亚马逊、微软和Meta虽然净利润率与往年持平甚至有所提升,但自由现金流分别下降了76.6%、14.8%和3.4%,主要是受到资本支出大幅上升的影响。Token金矿尚未探明,挖金子的还在投钱,而卖铲子的已经赚得盆满钵满。

这样的情况在历史上多次重演。产业革命初期,随着新技术兴起,需求先在投资端和产业上游爆发,中游巨额资本支出变成上游的巨大利润,而下游的最终消费方兴未艾,尚不足以支撑中游企业的产能扩张。风险向产业中游汇聚,资本与产能跑在真实付费需求之前。短期看,估值回调、产能闲置、部分参与者出局几乎难以避免;长期看,只要底层需求最终成形,超前建造的数据中心、芯片与网络还是会有用武之地,成为支撑经济增长的生产力底座。对于社会大众和监管者来说,需要防范产业链风险通过金融市场向外传导,风险外溢导致的经济大幅波动。

图4:AI产业链上下游自由现金流增速与净利润率对比(FY2025—2026) 数据来源,各公司年报,10-k SEC filing。绘图:Codebuddy

循环融资与影子信贷

产业链风险向中游模型厂商集中,而部分中游的模型厂商与上游硬件企业玩起循环融资 (circular financing) ,让人看不透到底是技术驱动的真实增长,还是资本自循环支撑的估值游戏。例如OpenAI与英伟达、甲骨文组建的“AI永动机”,先由Open AI接受英伟达战略投资 (原本承诺投资1000亿美元,后转为OpenAI新一轮融资的参与者,投资额也大幅缩减) ,再由OpenAI用融得资金向甲骨文购买云服务 (两家签署为期5年总价值约 3000亿美元的算力购买合同) ,最后甲骨文把OpenAI的付款承诺用于增信,发债融资向英伟达购买GPU用于算力中心建设,完成资金闭环。每一步似乎都有合理的商业逻辑,但每一步都让人觉得过于“超前”。

OpenAI的算力采购框架加总起来已突破1万亿美元,与其当下330亿美元的年化营收 (截至2026年5月ARR) 不匹配,完全是基于对未来高增长的预期 26 。一旦下游token终端消费不能带来模型厂商收入的指数级增长,“承诺”就会变成“泡沫”。而token终端消费的预期似乎并不乐观,据Bain & Company的测算,要消化掉到2030年新增的200GW算力,终端消费需要创造出每年约2万亿美元的新增营收。但即便算上AI带来的成本节约,仍有约8000亿美元的缺口 12 。

这样的循环融资游戏在世纪之交的互联网泡沫时代也出现过,但今天的估值泡沫有一半藏在不透明的私人信贷 (private credit) 市场里,更难确切掌握潜在风险。美联储加息抬高初创企业、杠杆收购等高风险债券市场利息,银行在巴塞尔协议要求下不得不退出这一市场,为私募机构留下空间,最终催生出一个规模约3万亿美元的美国私人信贷市场。

Apollo、Ares、Blue Owl、KKR、Blackstone等资管机构用BDC (商业发展公司) 和直接贷款为数据中心建设提供20-30年期的杠杆融资。这些贷款往往是通过私下谈判达成,用模型来定价的 (mark-to-model ),可能出现期限错配 (为LLM这样按月迭代的技术匹配未来30年现金流) ,同时因模型厂商缺现金,因此往往是实物支付利息 (PIK,利息直接滚入本金) ,风险叠加且不易觉察。

国际清算银行的一份报告讲到,目前在股权一级和二级市场已经把AI产业链的上行空间充分定价,但债务市场还没把下行风险定价进去 25 。一旦下游需求释放缓慢,营收不及预期,循环融资的估值逻辑将瓦解 (股权压缩) ,私人信贷里的模型被迫重估 ( 信 贷减值) ,泡沫破裂、股债双杀的风险骤增。

资源饥渴挤压其他需求

Token消耗催生的算力扩张,算力中心对水、电等资源极度饥渴,往往在短期内制造出巨大的供给缺口,对所在地的民生用水用电产生挤压效应。

美国弗吉尼亚州北部的数据中心巷 (Data Center Alley) 集中了全球密度最高的数据中心集群,承载了约70%的全球互联网流量。由于地方电网容量被科技公司用长期趸售协议提前锁定,居民和传统商业的能源配额被严重压缩。据弗吉尼亚州联合立法审计与审查委员会 (JLARC) 2024年12月发布的报告,数据中心的耗电量已经超过了弗吉尼亚州最大核电站发电量的两倍以上,仅满足劳登县 (Loudoun County) 已规划或在建数据中心的能源需求,就需要在2030年前向电网增加相当于数座核电站的发电能力。

数据中心对高压输电线路和清洁能源的疯狂抢购,迫使地方公用事业公司斥巨资升级电网。Dominion Energy计划在未来十五年内投资数十亿美元用于电网扩容。这笔巨额基建成本最终将以电网维护费、容量费用等形式摊派到居民月度账单上。Dominion服务区域内的容量拍卖价格已从29美元/MW-天飙升至444美元/MW-天,涨幅超过1400%,直接反映了电网发电和输电容量的严重稀缺 24 。皮德蒙特环境委员会 (PEC) 对Dominion Energy综合资源计划 (IRP) 的分析显示在该计划覆盖期内,普通居民的电费账单可能翻倍。

算力扩张对日常需求的挤出效应不仅限于弗吉尼亚,爱尔兰都柏林、新加坡裕廊、我国贵州等全球主要算力节点都曾经历过类似矛盾。从这个意义上说,token不经济不仅存在于数字世界,在现实生活中也投下长长的阴影。

寻找Token价值方程式

Token是智能时代的最基本的生产要素之一。与其他所有生产要素如土地、数据、资本、人力一样,只要存在资源错配、要素浪费,就必然会有所谓“不经济”的存在。从这个意义上说,token不经济不会只是AI产业链爆发初期的暂时现象,而是与token经济并存,贯穿在智能经济发展的始终。在具体的当下,token经济尚未完全展现,因此token不经济相对较为突出。

始终存在并不意味着要放任自流,可以从供给和需求两端施力,降低token不经济,强化token经济,让技术的发展真正转化为实在的经济价值。供给侧可以通过精细化技术手段降低单位token成本,堵住跑冒滴漏,防止风险扩散;需求侧可以通过不断发掘新的应用场景让 token花出价值来。当供给端的成本下行曲线与需求端的价值上行曲线形成交叉,token经济和不经济互相抵消后的净收益便可由负转正。

技术面的精细化变革

上下文缓存与语义压缩。上下文缓存 (Context Caching ) 已经成为模型厂商的通用做法,当多智能体流水线频繁命中历史缓存时,输入token的计费大幅压减。但这一做法也有局限性,在复杂企业级部署中,由于Agent路径高度分叉导致的缓存色散失效,实际成本节省的效果相对有限。更根本的解法在于上下文压缩,不是简单地滑动截断历史信息,而是进行语义层面的主动压缩,保留关键指令和推理链路,去掉重复与冗余。这种语义上下文压缩 (Semantic Context Compression) 能够在保护指令遵循率的同时,显著减少输入Token的消耗。

技能优化与减法思维。Gao et al., (2026) 的SkillReducer研究提供了技能优化的两条路径。一是描述压缩,为缺少路由描述的技能补充精简信息,压缩冗余的背景解释和示例;二是渐进式加载,不一次性把完整技能塞入上下文,而是按需加载,可实现39%的技能体压缩 5 。两者叠加后,在大幅压减技能调用的token消耗的同时,模型功能质量反而提升2.8%。从中可以看出,Agent技能调用不是越多越好,必要时做减法的收益要远大于做加法。减少上下文中的无效信息,不仅可以降低token消耗,还能提升模型输出的准确性。Less is more在此处不仅符合代码之美,也让token更经济。

模型路由与任务分流。大模型杀鸡用牛刀,是token浪费的重要原因之一。按任务复杂度做自适应模型路由 (Model Routing) ,把简单、高频的子任务甩给具备特定领域能力的开源轻量模型,只在关键决策点才动用昂贵的Frontier模型。这样分层调用,能大幅压低单位任务的平均token成本,又不牺牲关键环节的质量。

多Agent预算硬约束与主持人架构。没有分工、预算上限和明确停止条件的多Agent系统,演变成马拉松式的茶话会的概率大大增加。解决的路径是在多智能体协同网络中设计具备硬性预算约束 (Hard Budget Constraints) 与异步仲裁机制的主持人架构。Luo et al., (2026) 提出的蒙特卡洛树搜索方法,在多智能体流程中加入中间步骤的工具验证,保存候选状态,必要时回滚。可以将这种思路从推理层面提升到架构层面,为每个子任务设定token预算上限,由主持人Agent监控全局消耗,在预算耗尽前强制终止无效循环 7 。这不仅能防止财务失控,往往也会同时提升系统的整体效率。

商业面的价值锚定

Token治理与成本纪律。微软限制Claude Code、Meta撤下token消耗排行榜,大厂已经从对token消耗的单纯鼓励转向强调token产出和成本纪律性 1,2 。配额、审批、模型路由、成本归因、团队账单,未来这些措施大概率会成为企业AI治理的基本方式。这是AI进入生产系统后的必经阶段,即便AI是促进创新和加速生产的有力工具,也必须把账算清楚。用了多少token,产生了多少可验证产出,造成多少返工,都要被计量。没有计量就没有管理,没有上限就没有纪律。真正先进的公司考核的不是用AI最多,而是用最少的token完成最多的工作。

配给制会成为常态。企业不会无限供给Token,而是像管理云计算资源一样,设定预算池和审批流程。这种治理并不与技术创新对立,恰恰相反,配给制会倒逼架构师设计更高效的Agent系统,将成本约束内化。

找到token大规模商业应用的现实场景。这是实现从token净收益转正的根本。编程和智能体架构只是迈向token经济的一小步,寻找到可以产生巨大生产力跃迁的商业场景,是进入到token经济发展快车道、实现巨大经济价值创造的前提条件。目前在真实的商业场景中大规模应用智能体架构并带来巨大收益的案例仍然较少,且多为个案。能广泛应用于其他企业、其他行业的通用性解决方案仍在酝酿中。

具身智能和数字孪生是拓展方向之一,但必须正视Sim-to-Real Gap带来的非对称验证成本。更务实的路径是在传统行业中寻找具备弱确定性反馈的中间地带,如辅助诊断中的影像筛查 (有影像学标准可参照) 、供应链中的需求预测 (有历史数据可回测) 、法律领域中的合同初筛 (有条款模板可比对) 。这些场景的验证成本虽不如编译器趋近于零,但远低于纯粹的物理世界验证,有望成为token经济从数字沙盒走向真实世界的桥梁。OpenAI近期重新开始进行机器人研究,说明具身智能虽难,但始终无法绕开。

回归ROI

任何所创造价值超过所花费成本的投入,无论技术多么先进,终将不可持续。Token不经济不是技术失败,而是技术走向大规模生产时经常遭遇的暂时困境。正如工业革命初期的蒸汽机,效率低下、煤耗惊人,但这并不能否定蒸汽机代表生产力发展的未来方向。通过不断改良热效率、拓展应用场景,蒸汽动力最终成为驱动第一阶段工业革命的最根本力量。今天的token和Agent架构正如早期的蒸汽机,噪音大、油耗高,但在特定场景下已展现出远超人力的潜力,其后续发展必然是一场接一场的从粗放到精细的技术革新,未来更有价值的Agent,不是思维链最复杂的Agent,而是用最少token把事做成的Agent。当行业从以多为荣的炫技阶段进入以精为贵的生产阶段,当每一枚token的消耗都必须回答产出有何价值,token回归ROI的金标准,智能体时代就找到了自己的价值方程式。

本文来自微信公众号 “腾讯研究院”(ID:cyberlawrc),作者:李刚

相关问答

Q文章指出当前AI大模型应用面临的一个核心成本与效益问题是什么?

A文章指出当前AI大模型应用面临的核心问题是“token不经济”,即企业投入的token成本与其产生的实际价值不成比例,出现了成本暴涨但产出质量不尽如人意的现象。

QAnthropic公司在商业策略上如何确立其市场溢价地位?

AAnthropic公司通过聚焦编程这一核心变现场景,确立了技术领先优势。在此基础上,它采用了精细化的分层定价策略(如旗舰Opus、中端Sonnet、轻量Haiku系列),并进一步通过能力、风险和定价三维策略(如发布超高端模型Mythos和安全约束版Fable)来保护和提升其市场溢价,实现“好货不便宜”的价值闭环。

Q文章列举了哪几种导致Agent(智能体)系统造成token浪费的主要技术性原因?

A文章列举了四种主要技术性原因:1. 上下文陷阱:长任务和Agent协作导致同一信息被反复计入上下文消耗token。2. 分词器黑箱:闭源模型分词器更新可能带来token计数的隐性膨胀,推高成本。3. 技能的无意义调用:大量技能内容冗长、缺乏有效路由,导致Agent加载了过多无关信息。4. 多Agent的“沟通税”与长任务的“熵增”:Agent间无效的重复沟通以及为维持长任务稳定性而产生的额外监督消耗。

Q为什么说编程是目前大模型表现最好的应用场景,但这只是一个“具有通用性的特例”?

A编程场景的“通用性”在于其输出(代码)是驱动各类数字化Agent的通用语言。“特例”则在于它拥有其他场景难以比拟的独特优势:能够获得编译器、解释器等提供的即时、精准、结构化的自动反馈,从而可以形成低成本、高效率的自我训练与修正闭环。而大多数现实世界场景(如法律、医疗)的数据采集和结果验证成本极高,难以复制这种快速进化的模式。

Q文章在最后提出了从哪些方面着手来寻找“Token价值方程式”,以降低不经济现象?

A文章提出应从供给和需求两端共同施力:1. 技术面精细化变革:包括采用语义上下文压缩、优化技能调用、实施模型路由与任务分流、为多Agent系统设置预算硬约束与主持人架构等。2. 商业面价值锚定:加强企业内部的token治理与成本纪律(如配额、审批),并积极寻找能让token产生大规模实际价值的现实商业应用场景(如辅助诊断、供应链预测等弱确定性反馈领域)。最终目标是让token的消耗回归投资回报率(ROI)的金标准。

你可能也喜欢

AI牛市的悬头之剑:不只是韩国,美股杠杆同样触目惊心

全球股市在AI热潮推动下不断创出新高,但支撑这轮涨势的杠杆融资已达到危险水平,正成为市场潜在的重大风险。 数据显示,美国融资融券余额在5月同比增长54%,达到1.4万亿美元的历史峰值。与此同时,杠杆ETF总资产规模在短短两个多月内接近翻倍,突破2200亿美元。投资者大量涌入追踪科技股、半导体指数及英伟达等单股的杠杆产品。 这种高杠杆具有顺周期放大效应。巴克莱警告,杠杆基金已积累约3000亿美元衍生品头寸,一旦市场转向需要集中平仓,冲击力将非常巨大。杠杆ETF的资金流动还会反过来影响所追踪股票的走势,形成“尾巴摇动狗”的负向螺旋。 韩国市场近期剧烈震荡已敲响警钟。KOSPI指数因高度集中于芯片股且叠加极端杠杆,出现单日暴跌10%触发熔断、随后又急速反弹的极端行情。韩国监管机构对散户大量参与高风险杠杆产品表示担忧。 此外,股票融资成本正在飙升。摩根士丹利指出,融资变得昂贵且稀缺,边际买家正在消失。市场上涨过于依赖少数板块的杠杆资金,结构脆弱。一旦市场回调触发去杠杆,卖压将被成倍放大,可能导致远超预期的跌幅。 分析师警告,此前通过杠杆放大上涨动量的力量,在市场转向时可能开始反向切割,形成非线性冲击。当前金融条件实际上已在收紧,但被股市上涨的表象所掩盖,投资者需警惕潜在的去杠杆风险。

marsbit33分钟前

AI牛市的悬头之剑:不只是韩国,美股杠杆同样触目惊心

marsbit33分钟前

交易

现货
活动图片