一周省下3亿Token,Anthropic工程师的Claude Code缓存指南

marsbit發佈於 2026-05-24更新於 2026-05-24

文章摘要

这篇文章分享了Anthropic工程师通过有效利用Claude Code的Prompt缓存机制,一周内节省超过3亿Token的经验。核心观点是,缓存的Token成本仅为普通输入的10%,因此提高缓存复用率能显著降低使用成本并延长会话额度。 缓存机制依赖“前缀匹配”,分为系统层、项目层和对话层三层。只要会话前缀与已缓存内容一致,Claude即可直接复用,无需重新处理。Claude Code订阅版的缓存有效时间(TTL)为1小时,而API默认为5分钟。 文章强调了几个关键的使用习惯以避免“打断”缓存: 1. 不要让会话空置超过1小时,否则缓存过期,重新开始成本更低。 2. 切换任务时,建议进行清晰的会话交接(如使用自定义的handoff技能总结进度后新建会话),而非使用可能破坏缓存的`/compact`命令。 3. 避免在会话中途切换模型(包括开启“Opus plan”模式),因为不同模型使用独立缓存,切换会导致缓存失效。 4. 大文档应放入Projects中管理,而非反复粘贴进对话,以获得更好的缓存优化。 此外,文章提到Anthropic内部会监控缓存命中率,因为这直接影响服务成本和用户体验。通过理解并遵循这些简单的原则,用户可以在不改变使用习惯的情况下,更高效地利用Claude Code,节省Token消耗。

编者按:很多人使用 Claude Code 时,最直观的感受是 Token 消耗太快、长会话很容易吃额度。但从 Anthropic 工程师的视角看,真正影响成本的,往往不是你写了多少代码,而是系统有没有持续复用已经处理过的上下文。

本文分享的核心,就是如何通过缓存机制节省 Token。作者一周内通过缓存复用了超过 3 亿 Token,单日缓存量达到 9100 万。由于缓存 Token 的成本只有普通输入 Token 的 10%,这意味着 9100 万缓存 Token 实际计费约等于 900 万普通 Token。Claude Code 长会话之所以显得更「耐用」,不是因为模型免费工作,而是大量重复上下文被成功复用了。

Prompt caching 的关键在于「不要打断缓存」。Claude Code 会把系统提示、工具定义、CLAUDE.md、项目规则和历史对话分层缓存;只要后续请求的前缀保持一致,Claude 就可以直接读取缓存,而不是重新处理整段上下文。Anthropic 内部也会监控 prompt cache 的复用率,因为它不仅影响用户额度,也直接关系到模型服务成本和运行效率。

对普通用户来说,不必理解所有底层细节,只需要掌握几个关键习惯:不要让会话空置超过 1 小时;切换任务时做好 session handoff;避免频繁切换模型;大文档尽量放进 Projects,而不是反复粘贴进对话。

这篇文章与其说是在讲一个省 Token 技巧,不如说是在提供一套更接近工程师思维的 Claude Code 使用方法:把上下文当作资产管理,让缓存持续复用,让长会话少做重复计算。

以下为原文:

我这周省下了 3 亿 Token,单日 9100 万,一周超过 3 亿。

我没有改动任何设置。这只是 prompt caching 在后台正常发挥作用。

但当我真正理解了缓存是什么,以及怎样避免把缓存「打断」之后,在同样的使用额度下,我的会话可以持续更久。所以,这里整理一份 Claude Code prompt caching 的 80/20 入门指南,不涉及 API 层面的深度细节。

TL;DR

缓存 Token 的成本只有普通输入 Token 的 10%。9100 万缓存 Token,实际计费大约相当于 900 万 Token。

Claude Code 订阅版的缓存 TTL 是 1 小时;API 默认是 5 分钟;Sub-agent 永远是 5 分钟。

缓存分为三层:系统层、项目层、对话层。

会话中途切换模型会破坏缓存,包括开启「opus plan」模式。

缓存到底怎么算钱?

每一个被缓存的 Token,成本都是普通输入 Token 的 10%。

所以,当我的仪表盘显示某一天有 9100 万 Token 命中了缓存时,实际计费大概只相当于处理了 900 万 Token。这也是为什么和没有缓存相比,长时间使用 Claude Code 时,会让人感觉会话几乎是「免费」延长的。

仪表盘里有两个数字值得重点关注:

Cache create:把内容写入缓存时产生的一次性成本。它会在下一轮对话中开始发挥作用。
Cache read:Claude 从缓存中复用的 Token,比如你的 CLAUDE.md、工具定义、此前的消息等。相比重新作为输入处理,成本便宜 10 倍。

如果你的 Cache read 数字很高,说明你正在有效利用缓存;如果这个数字很低,就意味着你在为同一批上下文反复付费。

Anthropic 的 Thariq 有一句话让我印象很深:「我们实际上会监控 prompt cache 的命中率,一旦命中率过低,就会触发警报,甚至宣布 SEV 级别的事故。」

他还写过一篇很好的 X 文章。当缓存命中率高时,会同时发生四件事:Claude Code 体感更快,Anthropic 的服务成本下降,你的订阅额度显得更耐用,长时间编码会话也变得更现实。

但如果命中率很低,所有人都会吃亏。

所以,双方的激励其实是一致的:Anthropic 希望你的缓存命中率更高,你自己也希望命中率更高。真正会拖后腿的,只是一些看似不起眼、却会悄悄重置缓存的小习惯。

缓存是如何在每一轮对话中增长的?

缓存依赖的是 prefix matching,也就是「前缀匹配」。

不用陷入太深的技术细节,你只需要理解一点:只要某个位置之前的内容和已经缓存的内容完全一致,Claude 就可以复用这部分缓存 Token。

一次全新的会话,大致是这样展开的:

根据 Claude Code 文档,一个全新会话通常是这样运行的:

第一轮对话:还没有任何缓存。系统提示词、你的项目上下文(比如 CLAUDE.md、memory、规则),以及你的第一条消息,都会被重新处理一遍,并写入缓存。

第二轮对话:第一轮中的所有内容现在都已经被缓存。Claude 只需要处理你的新回复和下一条消息。这一轮成本就会低很多。

第三轮对话:逻辑相同。之前的对话仍然保留在缓存里,只有最新的一轮交互需要重新处理。

缓存本身可以分成三层:

来自 Thariq 的 X 文章:

系统层(System layer):包括基础指令、工具定义(read、write、bash、grep、glob)和输出风格。这一层是全局缓存的。

项目层(Project layer):包括 CLAUDE.md、memory、项目规则。这一层按项目缓存。

对话层(Conversation):包括回复和消息,会随着每一轮对话不断增长。

如果在会话中途,系统层或项目层的任何内容发生变化,所有内容都必须从头重新缓存一遍。这就是最「贵」的操作。可以想象一下:你已经聊到第 16 条消息,这时突然改了系统提示词,或者中途停了一个小时,那么从第 1 条消息开始的所有 Token 都要被重新处理一遍。

1 小时和 5 分钟的混淆

这是最容易让人误解的地方。

Claude Code 订阅版:默认 TTL 是 1 小时。

Claude API:默认 TTL 是 5 分钟。你可以付出更高成本,把它提升到 1 小时。
任何计划下的 Sub-agent:永远是 5 分钟。

Claude.ai 网页聊天:官方没有明确记录。可能和订阅版一样,但我还没有确认。

几个月前,很多人抱怨 Claude 订阅额度消耗得太快。当时有人以为 Anthropic 悄悄把 TTL 从 1 小时降到了 5 分钟,而且没有通知用户。但事实并不是这样,Claude Code 的 TTL 仍然是 1 小时。

问题在于,Claude Code 和 API 的文档是分开放的,而这两者本来就是完全不同的东西,于是造成了不少混淆。

如果你在大量运行 Sub-agent 工作流,或者直接使用 API,那么 5 分钟这个数字很重要。但对于 95% 的 Claude Code 用户来说,真正需要关注的,其实只有那个 1 小时窗口。

覆盖 95% 用户的三个习惯

下面这些,是我觉得日常使用中真正有用的部分。

不要暂停太久

如果你已经空闲超过一个小时,之前的内容基本都已经从缓存里过期了。你的下一条消息会重新构建缓存。这种情况下,与其继续恢复一个已经「变凉」的旧会话,不如做一次清晰的交接,然后开启一个新会话,成本通常更低。

切换任务时,直接重新开始

/compact 或 /clear 本来就会破坏缓存,所以不如趁这个节点真正重置一次。

我自己做了一个 session handoff skill,用来替代 /compact。它会总结我们已经完成了什么、还有哪些待定决策、哪些文件最重要,以及接下来应该从哪里继续。然后我执行 /clear,把这份总结贴进去,就可以像什么都没中断一样继续推进。

compact 命令有时候运行得也很慢。而这个 handoff skill 通常不到一分钟就能完成。

在 Claude 聊天里,大文档尽量放进 Projects

Claude.ai 上的缓存机制没有非常详细的官方说明,但 Projects 显然和普通对话线程采用了不同的优化方式。所以,如果你要粘贴很大的文档,最好把它们放进 Project,而不是直接塞进对话里。

哪些操作会悄悄破坏缓存?

有几件事会在没有明显提醒的情况下,把缓存全部重置。

切换模型:因为缓存依赖前缀匹配,而每个模型都有自己的缓存。只要切换模型,下一次请求就会在没有任何缓存命中的情况下,重新读取完整历史。

「Opus plan」模式:这个设置会在规划阶段使用 Opus,在执行阶段使用 Sonnet。我之前在一些 token 优化视频里推荐过它,是有原因的。但需要理解的是,每一次切换 plan,本质上都是一次模型切换,也就意味着要重新建立缓存。从长期看,它仍然有助于延长会话额度,但你需要知道底层到底发生了什么。

会话中途编辑 CLAUDE.md 是可以的:这个修改不会立刻生效,要等下一次重启才会应用。因此,当前正在运行的缓存不会受到影响。

我的免费 Token 仪表盘

我前面展示的截图,来自一个 token dashboard。

这是一个很简单的 GitHub 仓库。你把链接交给 Claude Code,让它在本地 localhost 上完成部署,它就会读取你过去所有的会话记录,而不是从空白状态开始统计。你一上来就能看到每天的 input、output、cache create 和 cache read 数据。

不过有一点需要注意:这个仪表盘统计的是本地设备上的 Token 数据。如果你从台式机切换到笔记本,数字就不会完全一致。每台设备都有自己的一套统计视图。

总结

Prompt caching 是一个可以研究得很深的东西。Thariq 那篇文章讲得比这里更完整,如果你想看全貌,值得去读。

但你不需要完全理解所有细节,才能从中受益。你只需要掌握最关键的 80/20:缓存 Token 比普通 Token 便宜 10 倍;Claude Code 的 TTL 是 1 小时;切换模型会破坏缓存;在任务之间做好清晰交接,通常比让一个旧会话放到「过期」后再硬接着用更划算。

相關問答

QClaude Code中的Prompt Caching机制主要通过什么方式来帮助用户节省成本?

APrompt Caching通过将已处理的系统提示、工具定义、项目规则和对话历史等内容进行分层缓存。只要后续请求的前缀与缓存内容一致,Claude就可以直接从缓存中读取并复用这些Token,而无需重新处理。被缓存的Token成本仅为普通输入Token的10%,从而大幅降低了使用成本。

Q影响Claude Code缓存复用的主要因素有哪些?请列举至少两点。

A主要影响因素包括:1. 会话空置时间过长:Claude Code订阅版的缓存TTL(生存时间)为1小时,超过此时间缓存会过期,需要重新构建。2. 切换模型:包括切换基础模型和开启‘Opus plan’模式,因为缓存依赖前缀匹配,每个模型有独立缓存,切换会导致缓存失效。

Q根据文章,Claude Code的缓存分为哪三个层次?

A缓存分为三层:1. 系统层:全局缓存,包括基础指令、工具定义和输出风格。2. 项目层:按项目缓存,包括CLAUDE.md、memory和项目规则。3. 对话层:随着每轮对话增长,缓存之前的回复和消息内容。

Q为了有效利用缓存、节省Token,普通用户应养成哪两个关键习惯?

A用户应养成两个关键习惯:1. 不要让会话空置超过1小时,否则缓存过期需重新付费处理。若已超时,建议开启新会话而非恢复旧会话。2. 在切换任务时,做好清晰的会话交接(例如使用自定义的session handoff技能总结进度),然后执行/clear并粘贴总结,这比使用/compact或让旧会话过期更划算。

Q文章中提到‘Cache create’和‘Cache read’两个指标,它们分别代表什么含义?

A‘Cache create’代表首次把内容(如系统提示、项目上下文、第一条消息)写入缓存时产生的一次性处理成本。‘Cache read’代表Claude在后续对话中从缓存中成功复用的Token数量。‘Cache read’数值高,说明缓存复用效率高,成本节省显著;数值低则意味着在为相同的上下文反复付费。

你可能也喜歡

BTC市场脉搏:第22周

比特币上周交易走低,价格从7.9万美元跌至7.4万美元附近的局部低点,随后反弹至约7.7万美元。价格动能下降21.7%,反映出行情疲软和抛压上升。然而,现货与永续合约的CVD指标分别大幅增长77.2%和35.5%,表明抛压正在缓解,市场情绪趋于平衡。整体活动有所降温,现货交易量下降10%,期货未平仓合约减少3.5%,指向投机兴趣减弱和市场背景更趋谨慎。 尽管如此,风险偏好重现的迹象正在浮现。多头资金费率飙升135.4%,突显了强烈的多头敞口需求和看涨情绪的改善。在期权市场,25-Delta偏度小幅上升,显示对下行保护的需求略有增加,而未平仓合约大体稳定,表明仓位保持完好。 在传统金融领域,美国现货ETF的MVRV上升0.69%,表明ETF持有者的未实现利润略有增加。同时,ETF资金净流入改善28.9%,指向资本外流缓解和情绪稳定,尽管ETF交易量下降了22.9%,暗示投机活动放缓。 从网络活动看,每日活跃地址数和实体调整后的转账量略有减少,暗示市场可能进入盘整阶段或投资者活动减弱。流动性指标显示市场流动性状况更趋稳定,市场特征表现为信念更强而投机活动更低,进一步支持盘整阶段的判断。 然而,盈利指标提示市场压力可能增加。净未实现盈亏比显著下降,而已实现盈亏比表明实现亏损相对于获利了结有所增加,反映出谨慎且可能偏空的市场情绪。 总而言之,市场显示出温和与盘整的迹象,其特点是活动减少、情绪谨慎以及风险偏好复杂交织。这一微妙局面凸显了持续密切关注市场动态和投资者行为的重要性。

insights.glassnode11 分鐘前

BTC市场脉搏:第22周

insights.glassnode11 分鐘前

市值低于0.05美元但获证实资金实力的五大加密货币资产 — Ozak AI以700万美元募资额位居榜首

当前高价值加密货币增长放缓,早期收益已见顶,投资者转向寻找低价但具备高增长潜力的加密资产。分析师认为,具备坚实资金和技术实力的低价加密货币有望长期生存并获得巨大回报。其中,Ozak AI、BitTorrent、Siacoin、VeChain和Kaspa是价格低于0.05美元且资金实力得到验证的五大加密货币。 Ozak AI (OZK) 以约0.01美元的价格处于第七轮预售阶段,已筹集超过730万美元,预售增长势头强劲。其核心是将AI与区块链结合,开发可分析实时链上数据的预测工具。其技术采用三层去中心化网络架构,具备抗审查、高负载下快速响应及更安全等特性。此外,其个性化预测代理功能允许用户定制AI代理。项目已与Zeni、Spheron等AI和区块链公司建立战略合作。 其余四个代币概况如下:BitTorrent (BTT) 价格约0.00000039美元,拥有庞大用户基础和生态资金支持;Siacoin (SC) 价格约0.00142美元,是历史悠久的去中心化存储项目;VeChain (VET) 价格约0.01美元,在企业供应链应用和机构合作方面实力突出;Kaspa (KAS) 价格约0.046美元,以其快速区块时间的PoW机制和活跃社区著称。 结论指出,这五种低价加密货币均拥有强劲资金支持,降低了执行风险,增强了抵御市场波动的能力。其中,Ozak AI凭借其先进的AI技术、强劲的预售势头、超过700万美元的融资以及战略合作伙伴关系,在列表中处于领先地位,被视为低于0.05美元资产的新标杆。

TheNewsCrypto54 分鐘前

市值低于0.05美元但获证实资金实力的五大加密货币资产 — Ozak AI以700万美元募资额位居榜首

TheNewsCrypto54 分鐘前

DeepSeek的十万亿美元之路:用开源撬动万亿硬件生态

DeepSeek的长期战略并非通过应用层(如编程订阅)直接变现,而是致力于通过一系列底层架构创新,重塑AI训练与推理的成本结构,并推动一个规模达10万亿美元的新硬件生态形成。 其技术创新始终围绕一个核心:在高端算力受限的背景下,如何用更少的资源跑出更强的模型。例如: 1. **压缩KV Cache**:通过MLA、DSA、CSA、HSA等机制,大幅减少长上下文所需的显存(HBM)。DeepSeek V4在100万上下文长度下仅需约5.5GB HBM,远低于其他主流模型,这使得将KV Cache卸载到SSD/NAND成为经济可行的方案,降低了对紧缺的HBM的依赖。 2. **以内存换计算**:其Engram模块利用LPDDR内存进行高效的O(1)知识查找,用更便宜的内存资源节省昂贵的计算开销。 3. **提升硬件兼容性与效率**:通过MoE架构、权重流式加载、TileLang编程语言等,旨在削弱对特定硬件(如CUDA生态)的依赖,让更多国产及全球的GPU、ASIC、存储和网络芯片能够高效运行AI负载。 这些创新若扩散开来,将直接惠及长江存储(NAND/SSD)、长鑫存储(LPDDR)等国内存储厂商,并为众多AI芯片厂商创造机会。DeepSeek的盈利模式可能类似于OpenAI与AMD的合作,通过深度绑定并赋能整个硬件生态,以换取股权等长期回报,从而在推动一个巨大产业形成的同时,实现自身万亿美金估值的终极目标。

marsbit1 小時前

DeepSeek的十万亿美元之路:用开源撬动万亿硬件生态

marsbit1 小時前

交易

現貨
合約

熱門文章

如何購買PEOPLE

歡迎來到HTX.com!在這裡,購買ConstitutionDAO (PEOPLE)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買ConstitutionDAO (PEOPLE)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的ConstitutionDAO (PEOPLE)購買ConstitutionDAO (PEOPLE)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易ConstitutionDAO (PEOPLE)在HTX的現貨市場輕鬆交易ConstitutionDAO (PEOPLE)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

749 人學過發佈於 2024.12.12更新於 2025.03.21

如何購買PEOPLE

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 PEOPLE (PEOPLE)幣價的意見。

活动图片