一周省下3亿Token,Anthropic工程师的Claude Code缓存指南

marsbit发布于2026-05-24更新于2026-05-24

文章摘要

这篇文章分享了Anthropic工程师通过有效利用Claude Code的Prompt缓存机制,一周内节省超过3亿Token的经验。核心观点是,缓存的Token成本仅为普通输入的10%,因此提高缓存复用率能显著降低使用成本并延长会话额度。 缓存机制依赖“前缀匹配”,分为系统层、项目层和对话层三层。只要会话前缀与已缓存内容一致,Claude即可直接复用,无需重新处理。Claude Code订阅版的缓存有效时间(TTL)为1小时,而API默认为5分钟。 文章强调了几个关键的使用习惯以避免“打断”缓存: 1. 不要让会话空置超过1小时,否则缓存过期,重新开始成本更低。 2. 切换任务时,建议进行清晰的会话交接(如使用自定义的handoff技能总结进度后新建会话),而非使用可能破坏缓存的`/compact`命令。 3. 避免在会话中途切换模型(包括开启“Opus plan”模式),因为不同模型使用独立缓存,切换会导致缓存失效。 4. 大文档应放入Projects中管理,而非反复粘贴进对话,以获得更好的缓存优化。 此外,文章提到Anthropic内部会监控缓存命中率,因为这直接影响服务成本和用户体验。通过理解并遵循这些简单的原则,用户可以在不改变使用习惯的情况下,更高效地利用Claude Code,节省Token消耗。

编者按:很多人使用 Claude Code 时,最直观的感受是 Token 消耗太快、长会话很容易吃额度。但从 Anthropic 工程师的视角看,真正影响成本的,往往不是你写了多少代码,而是系统有没有持续复用已经处理过的上下文。

本文分享的核心,就是如何通过缓存机制节省 Token。作者一周内通过缓存复用了超过 3 亿 Token,单日缓存量达到 9100 万。由于缓存 Token 的成本只有普通输入 Token 的 10%,这意味着 9100 万缓存 Token 实际计费约等于 900 万普通 Token。Claude Code 长会话之所以显得更「耐用」,不是因为模型免费工作,而是大量重复上下文被成功复用了。

Prompt caching 的关键在于「不要打断缓存」。Claude Code 会把系统提示、工具定义、CLAUDE.md、项目规则和历史对话分层缓存;只要后续请求的前缀保持一致,Claude 就可以直接读取缓存,而不是重新处理整段上下文。Anthropic 内部也会监控 prompt cache 的复用率,因为它不仅影响用户额度,也直接关系到模型服务成本和运行效率。

对普通用户来说,不必理解所有底层细节,只需要掌握几个关键习惯:不要让会话空置超过 1 小时;切换任务时做好 session handoff;避免频繁切换模型;大文档尽量放进 Projects,而不是反复粘贴进对话。

这篇文章与其说是在讲一个省 Token 技巧,不如说是在提供一套更接近工程师思维的 Claude Code 使用方法:把上下文当作资产管理,让缓存持续复用,让长会话少做重复计算。

以下为原文:

我这周省下了 3 亿 Token,单日 9100 万,一周超过 3 亿。

我没有改动任何设置。这只是 prompt caching 在后台正常发挥作用。

但当我真正理解了缓存是什么,以及怎样避免把缓存「打断」之后,在同样的使用额度下,我的会话可以持续更久。所以,这里整理一份 Claude Code prompt caching 的 80/20 入门指南,不涉及 API 层面的深度细节。

TL;DR

缓存 Token 的成本只有普通输入 Token 的 10%。9100 万缓存 Token,实际计费大约相当于 900 万 Token。

Claude Code 订阅版的缓存 TTL 是 1 小时;API 默认是 5 分钟;Sub-agent 永远是 5 分钟。

缓存分为三层:系统层、项目层、对话层。

会话中途切换模型会破坏缓存,包括开启「opus plan」模式。

缓存到底怎么算钱?

每一个被缓存的 Token,成本都是普通输入 Token 的 10%。

所以,当我的仪表盘显示某一天有 9100 万 Token 命中了缓存时,实际计费大概只相当于处理了 900 万 Token。这也是为什么和没有缓存相比,长时间使用 Claude Code 时,会让人感觉会话几乎是「免费」延长的。

仪表盘里有两个数字值得重点关注:

Cache create:把内容写入缓存时产生的一次性成本。它会在下一轮对话中开始发挥作用。
Cache read:Claude 从缓存中复用的 Token,比如你的 CLAUDE.md、工具定义、此前的消息等。相比重新作为输入处理,成本便宜 10 倍。

如果你的 Cache read 数字很高,说明你正在有效利用缓存;如果这个数字很低,就意味着你在为同一批上下文反复付费。

Anthropic 的 Thariq 有一句话让我印象很深:「我们实际上会监控 prompt cache 的命中率,一旦命中率过低,就会触发警报,甚至宣布 SEV 级别的事故。」

他还写过一篇很好的 X 文章。当缓存命中率高时,会同时发生四件事:Claude Code 体感更快,Anthropic 的服务成本下降,你的订阅额度显得更耐用,长时间编码会话也变得更现实。

但如果命中率很低,所有人都会吃亏。

所以,双方的激励其实是一致的:Anthropic 希望你的缓存命中率更高,你自己也希望命中率更高。真正会拖后腿的,只是一些看似不起眼、却会悄悄重置缓存的小习惯。

缓存是如何在每一轮对话中增长的?

缓存依赖的是 prefix matching,也就是「前缀匹配」。

不用陷入太深的技术细节,你只需要理解一点:只要某个位置之前的内容和已经缓存的内容完全一致,Claude 就可以复用这部分缓存 Token。

一次全新的会话,大致是这样展开的:

根据 Claude Code 文档,一个全新会话通常是这样运行的:

第一轮对话:还没有任何缓存。系统提示词、你的项目上下文(比如 CLAUDE.md、memory、规则),以及你的第一条消息,都会被重新处理一遍,并写入缓存。

第二轮对话:第一轮中的所有内容现在都已经被缓存。Claude 只需要处理你的新回复和下一条消息。这一轮成本就会低很多。

第三轮对话:逻辑相同。之前的对话仍然保留在缓存里,只有最新的一轮交互需要重新处理。

缓存本身可以分成三层:

来自 Thariq 的 X 文章:

系统层(System layer):包括基础指令、工具定义(read、write、bash、grep、glob)和输出风格。这一层是全局缓存的。

项目层(Project layer):包括 CLAUDE.md、memory、项目规则。这一层按项目缓存。

对话层(Conversation):包括回复和消息,会随着每一轮对话不断增长。

如果在会话中途,系统层或项目层的任何内容发生变化,所有内容都必须从头重新缓存一遍。这就是最「贵」的操作。可以想象一下:你已经聊到第 16 条消息,这时突然改了系统提示词,或者中途停了一个小时,那么从第 1 条消息开始的所有 Token 都要被重新处理一遍。

1 小时和 5 分钟的混淆

这是最容易让人误解的地方。

Claude Code 订阅版:默认 TTL 是 1 小时。

Claude API:默认 TTL 是 5 分钟。你可以付出更高成本,把它提升到 1 小时。
任何计划下的 Sub-agent:永远是 5 分钟。

Claude.ai 网页聊天:官方没有明确记录。可能和订阅版一样,但我还没有确认。

几个月前,很多人抱怨 Claude 订阅额度消耗得太快。当时有人以为 Anthropic 悄悄把 TTL 从 1 小时降到了 5 分钟,而且没有通知用户。但事实并不是这样,Claude Code 的 TTL 仍然是 1 小时。

问题在于,Claude Code 和 API 的文档是分开放的,而这两者本来就是完全不同的东西,于是造成了不少混淆。

如果你在大量运行 Sub-agent 工作流,或者直接使用 API,那么 5 分钟这个数字很重要。但对于 95% 的 Claude Code 用户来说,真正需要关注的,其实只有那个 1 小时窗口。

覆盖 95% 用户的三个习惯

下面这些,是我觉得日常使用中真正有用的部分。

不要暂停太久

如果你已经空闲超过一个小时,之前的内容基本都已经从缓存里过期了。你的下一条消息会重新构建缓存。这种情况下,与其继续恢复一个已经「变凉」的旧会话,不如做一次清晰的交接,然后开启一个新会话,成本通常更低。

切换任务时,直接重新开始

/compact 或 /clear 本来就会破坏缓存,所以不如趁这个节点真正重置一次。

我自己做了一个 session handoff skill,用来替代 /compact。它会总结我们已经完成了什么、还有哪些待定决策、哪些文件最重要,以及接下来应该从哪里继续。然后我执行 /clear,把这份总结贴进去,就可以像什么都没中断一样继续推进。

compact 命令有时候运行得也很慢。而这个 handoff skill 通常不到一分钟就能完成。

在 Claude 聊天里,大文档尽量放进 Projects

Claude.ai 上的缓存机制没有非常详细的官方说明,但 Projects 显然和普通对话线程采用了不同的优化方式。所以,如果你要粘贴很大的文档,最好把它们放进 Project,而不是直接塞进对话里。

哪些操作会悄悄破坏缓存?

有几件事会在没有明显提醒的情况下,把缓存全部重置。

切换模型:因为缓存依赖前缀匹配,而每个模型都有自己的缓存。只要切换模型,下一次请求就会在没有任何缓存命中的情况下,重新读取完整历史。

「Opus plan」模式:这个设置会在规划阶段使用 Opus,在执行阶段使用 Sonnet。我之前在一些 token 优化视频里推荐过它,是有原因的。但需要理解的是,每一次切换 plan,本质上都是一次模型切换,也就意味着要重新建立缓存。从长期看,它仍然有助于延长会话额度,但你需要知道底层到底发生了什么。

会话中途编辑 CLAUDE.md 是可以的:这个修改不会立刻生效,要等下一次重启才会应用。因此,当前正在运行的缓存不会受到影响。

我的免费 Token 仪表盘

我前面展示的截图,来自一个 token dashboard。

这是一个很简单的 GitHub 仓库。你把链接交给 Claude Code,让它在本地 localhost 上完成部署,它就会读取你过去所有的会话记录,而不是从空白状态开始统计。你一上来就能看到每天的 input、output、cache create 和 cache read 数据。

不过有一点需要注意:这个仪表盘统计的是本地设备上的 Token 数据。如果你从台式机切换到笔记本,数字就不会完全一致。每台设备都有自己的一套统计视图。

总结

Prompt caching 是一个可以研究得很深的东西。Thariq 那篇文章讲得比这里更完整,如果你想看全貌,值得去读。

但你不需要完全理解所有细节,才能从中受益。你只需要掌握最关键的 80/20:缓存 Token 比普通 Token 便宜 10 倍;Claude Code 的 TTL 是 1 小时;切换模型会破坏缓存;在任务之间做好清晰交接,通常比让一个旧会话放到「过期」后再硬接着用更划算。

相关问答

QClaude Code中的Prompt Caching机制主要通过什么方式来帮助用户节省成本?

APrompt Caching通过将已处理的系统提示、工具定义、项目规则和对话历史等内容进行分层缓存。只要后续请求的前缀与缓存内容一致,Claude就可以直接从缓存中读取并复用这些Token,而无需重新处理。被缓存的Token成本仅为普通输入Token的10%,从而大幅降低了使用成本。

Q影响Claude Code缓存复用的主要因素有哪些?请列举至少两点。

A主要影响因素包括:1. 会话空置时间过长:Claude Code订阅版的缓存TTL(生存时间)为1小时,超过此时间缓存会过期,需要重新构建。2. 切换模型:包括切换基础模型和开启‘Opus plan’模式,因为缓存依赖前缀匹配,每个模型有独立缓存,切换会导致缓存失效。

Q根据文章,Claude Code的缓存分为哪三个层次?

A缓存分为三层:1. 系统层:全局缓存,包括基础指令、工具定义和输出风格。2. 项目层:按项目缓存,包括CLAUDE.md、memory和项目规则。3. 对话层:随着每轮对话增长,缓存之前的回复和消息内容。

Q为了有效利用缓存、节省Token,普通用户应养成哪两个关键习惯?

A用户应养成两个关键习惯:1. 不要让会话空置超过1小时,否则缓存过期需重新付费处理。若已超时,建议开启新会话而非恢复旧会话。2. 在切换任务时,做好清晰的会话交接(例如使用自定义的session handoff技能总结进度),然后执行/clear并粘贴总结,这比使用/compact或让旧会话过期更划算。

Q文章中提到‘Cache create’和‘Cache read’两个指标,它们分别代表什么含义?

A‘Cache create’代表首次把内容(如系统提示、项目上下文、第一条消息)写入缓存时产生的一次性处理成本。‘Cache read’代表Claude在后续对话中从缓存中成功复用的Token数量。‘Cache read’数值高,说明缓存复用效率高,成本节省显著;数值低则意味着在为相同的上下文反复付费。

你可能也喜欢

富达年中复盘:2026 年数字资产的 6 大关键趋势

富达数字资产研究团队在2026年年中复盘报告中,梳理了年初展望中提出的六大关键趋势进展,认为数字资产领域正在进行结构性“重塑”。 1. **数字资产与传统资本市场加速整合**:趋势持续且快于预期。现货比特币ETP期权未平仓合约激增,代币化领域活跃,监管框架(如SEC/CFTC指南)趋于清晰,推动数字资产进一步融入主流金融体系。 2. **代币持有者权利受关注但仍不明朗**:生态内相关机制(如回购、治理重组)的试验在继续,但市场尚未对此形成明确的“权利溢价”定价,该趋势仍处早期。 3. **人工智能算力需求可能影响比特币挖矿**:比特币算力与挖矿难度出现下降,虽部分受季节性因素影响,但增长放缓的长期趋势与AI算力竞争加剧的预测相符,矿工可能正转向更有利可图的AI数据中心业务。 4. **比特币网络处于新的转折点**:OP_RETURN数据上限放宽未导致网络滥用或臃肿。当前焦点转向网络动态,Bitcoin Knots节点占比约17%,虽引发对潜在分裂风险的讨论,但Bitcoin Core(占比77%)仍主导共识。同时,抗量子计算等长期安全升级研究获得进展。 5. **空头暂时掌控市场局面**:年初至今,受清算去杠杆、高通胀及地缘政治不确定性影响,熊市情景占上风,比特币价格下跌。但近期在地缘冲突后,比特币展现出避险属性,跑赢部分传统资产,且机构参与、监管清晰度提升等结构性利好依然存在。 6. **黄金保持强势,去美元化趋势显现**:黄金在央行购金及去美元化趋势支撑下表现强劲。有证据显示比特币开始在一些国际贸易场景(如伊朗)作为支付手段被使用,但比特币紧随黄金优异表现的情景尚未出现。 **结论**:当前数字资产市场呈现短期压力与长期结构性进展并存的局面。投资者需超越价格波动,关注机构融合、监管、基础设施等领域的实质推进,这些正为下一阶段增长积蓄力量。

marsbit31分钟前

富达年中复盘:2026 年数字资产的 6 大关键趋势

marsbit31分钟前

富达年中复盘:2026 年数字资产的 6 大关键趋势

富达数字资产在年中复盘中,梳理了其在《2026年展望》中提出的六大关键趋势的当前进展: 1. **数字资产与资本市场加速整合**:传统金融渠道对数字资产的敞口需求坚挺,现货比特币ETP期权等产品发展迅速,反映出机构和主流投资者采用率持续上升。代币化势头增强,监管框架也趋于清晰,推动数字资产进一步融入金融体系。 2. **代币持有者权利逐渐受关注**:生态内正在试验更多机制以绑定持有者利益,如基于储备的回购和治理结构更新。但相关的“权利溢价”尚未完全体现在市场定价中,趋势仍处早期。 3. **人工智能与挖矿的潜在转变**:比特币算力增长呈现放缓趋势,部分原因可能是矿工将能源和基础设施转向利润率可能更高的AI算力需求。这符合此前关于结构性转变的判断。 4. **比特币处于新的转折点**:提高OP_RETURN数据上限并未导致区块链明显膨胀或网络压力。当前焦点转向网络动态,如Bitcoin Knots节点的波动可能带来潜在分裂风险,但Bitcoin Core节点仍主导共识。同时,抗量子计算等长期安全升级的准备工作也在推进。 5. **空头暂时掌控局面**:受去杠杆、高通胀及地缘政治不确定性影响,比特币价格承压,熊市情景占上风。但在压力时期,比特币也展现出作为高流动性中立资产的韧性,且机构参与、监管清晰度提升等结构性利好依然存在。 6. **黄金保持强势**:受央行购金及全球“去美元化”趋势支撑,黄金年初表现强劲。央行需求持续,黄金已成为全球主要储备资产。然而,此前预期的比特币紧随黄金的优异表现尚未出现。 **结论**:当前数字资产市场呈现短期压力与长期结构性进展并存的局面。机构化、监管和基础设施等趋势正按预期推进,为下一阶段增长积蓄力量,投资者需关注这些底层转变而非短期价格波动。

链捕手38分钟前

富达年中复盘:2026 年数字资产的 6 大关键趋势

链捕手38分钟前

Crypto GP 的中年危机:没有 PMF,就没有 LP 的下一张支票

**Crypto GP的中年危机:没有PMF,就没有LP的下一张支票** 当前加密货币市场,有限合伙人(LP)已不再愿意为虚无的梦想买单,普通合伙人(GP)必须拿出具有产品市场契合度(PMF)的具体产品才能持续获得融资。市场环境已从“购买未来愿景”转向“购买具体产品”阶段,LP要求立即、相对确定的赚钱机会。 文章将当前加密募资产品分为三大类:一级市场(Primary)、流动性市场(Liquid)以及中心化/去中心化金融原生收益(CeFi/DeFi Native Yield)。本文上篇重点分析一级市场。 **一级市场现状与挑战:** 过去,LP投资加密VC的主要理由包括:捕捉行业增长红利、获取项目投资渠道、信赖GP的卓越判断力、看重GP的“攒局”资源整合能力,或是进行声誉投资。然而,这些理由如今已大大削弱: 1. 获取加密资产曝险的途径(如ETF、托管账户等)已非常丰富,不再依赖VC盲池基金。 2. LP自身学习能力增强,或已建立内部团队,对GP渠道的依赖降低。 3. 多数GP在上个周期未能证明其判断力优于市场。 4. 市场下行时,“攒局”与退出变得困难。 **谁能留在牌桌上?** 在当前环境下,能继续在一级市场募资的GP主要包括: 1. 管理规模足以进入捐赠基金等长期耐心资本配置范围的基金。 2. 使用自有资金投资的家族办公室、公司或高净值人士。 3. 在本周期内真正为LP创造了超额回报的少数基金。 4. 具备明确生态资源和利益置换能力的“攒局型”基金。 对于其他大多数GP而言,行业信任已然受损,需要心态归零,在细分领域重新证明自己创造超额回报的能力,或提供具体的服务价值,以此重建信任并寻求发展。

marsbit1小时前

Crypto GP 的中年危机:没有 PMF,就没有 LP 的下一张支票

marsbit1小时前

脱钩时代来临,比特币不再是加密的唯一罗盘

文章指出,加密市场正告别以比特币为单一风向标的时代,分化为“内生型”和“外生型”两大资产阵营。 内生型资产(如比特币和多数传统加密货币)的价值仍与加密市场整体行情深度绑定。而外生型资产的崛起成为新趋势,其价值主要依托自身业务的真实需求和基本面,日益独立于比特币价格波动。 例如,Hyperliquid作为混合型案例,其部分合约交易已转向非加密资产。Venice等项目则完全脱离加密市场,其商业模式更接近消费级AI服务,收入来自用户为AI推理付费。Figure公司利用区块链技术提升贷款效率,其核心价值在于金融科技业务本身。 此外,稳定币等赛道的企业收购与高增长(如BVNK、Bridge),也显示了其发展与加密牛熊周期的脱钩。 这一转变意味着行业分析逻辑的根本改变:研究外生型资产需要像分析传统企业一样,专注于用户群体、经济模型和行业护城河等基本面,而非紧盯比特币价格。文章列举了多个具备潜力的外生型赛道,包括链上金融服务、AI与加密融合、新型数字银行、支付、非金融消费产品等。 目前,投资相关企业股权仍是主要途径,代币机制仍需优化。但核心趋势已定:加密市场的驱动力正变得多元,行业研究重心将从解读比特币图表转向深耕企业基本面。未来,加密市场齐涨共跌的局面或将不再。

marsbit2小时前

脱钩时代来临,比特币不再是加密的唯一罗盘

marsbit2小时前

交易

现货
合约

热门文章

如何购买PEOPLE

欢迎来到HTX.com!我们已经让购买ConstitutionDAO(PEOPLE)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买ConstitutionDAO(PEOPLE)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的ConstitutionDAO(PEOPLE)购买完您的ConstitutionDAO(PEOPLE)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易ConstitutionDAO(PEOPLE)在HTX的现货市场轻松交易ConstitutionDAO(PEOPLE)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

1.2k人学过发布于 2024.03.29更新于 2026.06.01

如何购买PEOPLE

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对PEOPLE(PEOPLE)币价的意见。

活动图片