一周省下3亿Token，Anthropic工程师的Claude Code缓存指南

marsbit發佈於 2026-05-24更新於 2026-05-24

文章摘要

这篇文章分享了Anthropic工程师通过有效利用Claude Code的Prompt缓存机制，一周内节省超过3亿Token的经验。核心观点是，缓存的Token成本仅为普通输入的10%，因此提高缓存复用率能显著降低使用成本并延长会话额度。缓存机制依赖“前缀匹配”，分为系统层、项目层和对话层三层。只要会话前缀与已缓存内容一致，Claude即可直接复用，无需重新处理。Claude Code订阅版的缓存有效时间（TTL）为1小时，而API默认为5分钟。文章强调了几个关键的使用习惯以避免“打断”缓存： 1. 不要让会话空置超过1小时，否则缓存过期，重新开始成本更低。 2. 切换任务时，建议进行清晰的会话交接（如使用自定义的handoff技能总结进度后新建会话），而非使用可能破坏缓存的`/compact`命令。 3. 避免在会话中途切换模型（包括开启“Opus plan”模式），因为不同模型使用独立缓存，切换会导致缓存失效。 4. 大文档应放入Projects中管理，而非反复粘贴进对话，以获得更好的缓存优化。此外，文章提到Anthropic内部会监控缓存命中率，因为这直接影响服务成本和用户体验。通过理解并遵循这些简单的原则，用户可以在不改变使用习惯的情况下，更高效地利用Claude Code，节省Token消耗。

编者按:很多人使用 Claude Code 时,最直观的感受是 Token 消耗太快、长会话很容易吃额度。但从 Anthropic 工程师的视角看,真正影响成本的,往往不是你写了多少代码,而是系统有没有持续复用已经处理过的上下文。

本文分享的核心,就是如何通过缓存机制节省 Token。作者一周内通过缓存复用了超过 3 亿 Token,单日缓存量达到 9100 万。由于缓存 Token 的成本只有普通输入 Token 的 10%,这意味着 9100 万缓存 Token 实际计费约等于 900 万普通 Token。Claude Code 长会话之所以显得更「耐用」,不是因为模型免费工作,而是大量重复上下文被成功复用了。

Prompt caching 的关键在于「不要打断缓存」。Claude Code 会把系统提示、工具定义、CLAUDE.md、项目规则和历史对话分层缓存;只要后续请求的前缀保持一致,Claude 就可以直接读取缓存,而不是重新处理整段上下文。Anthropic 内部也会监控 prompt cache 的复用率,因为它不仅影响用户额度,也直接关系到模型服务成本和运行效率。

对普通用户来说,不必理解所有底层细节,只需要掌握几个关键习惯:不要让会话空置超过 1 小时;切换任务时做好 session handoff;避免频繁切换模型;大文档尽量放进 Projects,而不是反复粘贴进对话。

这篇文章与其说是在讲一个省 Token 技巧,不如说是在提供一套更接近工程师思维的 Claude Code 使用方法:把上下文当作资产管理,让缓存持续复用,让长会话少做重复计算。

以下为原文:

我这周省下了 3 亿 Token,单日 9100 万,一周超过 3 亿。

我没有改动任何设置。这只是 prompt caching 在后台正常发挥作用。

但当我真正理解了缓存是什么,以及怎样避免把缓存「打断」之后,在同样的使用额度下,我的会话可以持续更久。所以,这里整理一份 Claude Code prompt caching 的 80/20 入门指南,不涉及 API 层面的深度细节。

TL;DR

缓存 Token 的成本只有普通输入 Token 的 10%。9100 万缓存 Token,实际计费大约相当于 900 万 Token。

Claude Code 订阅版的缓存 TTL 是 1 小时;API 默认是 5 分钟;Sub-agent 永远是 5 分钟。

缓存分为三层:系统层、项目层、对话层。

会话中途切换模型会破坏缓存,包括开启「opus plan」模式。

缓存到底怎么算钱?

每一个被缓存的 Token,成本都是普通输入 Token 的 10%。

所以,当我的仪表盘显示某一天有 9100 万 Token 命中了缓存时,实际计费大概只相当于处理了 900 万 Token。这也是为什么和没有缓存相比,长时间使用 Claude Code 时,会让人感觉会话几乎是「免费」延长的。

仪表盘里有两个数字值得重点关注:

Cache create:把内容写入缓存时产生的一次性成本。它会在下一轮对话中开始发挥作用。
Cache read:Claude 从缓存中复用的 Token,比如你的 CLAUDE.md、工具定义、此前的消息等。相比重新作为输入处理,成本便宜 10 倍。

如果你的 Cache read 数字很高,说明你正在有效利用缓存;如果这个数字很低,就意味着你在为同一批上下文反复付费。

Anthropic 的 Thariq 有一句话让我印象很深:「我们实际上会监控 prompt cache 的命中率,一旦命中率过低,就会触发警报,甚至宣布 SEV 级别的事故。」

他还写过一篇很好的 X 文章。当缓存命中率高时,会同时发生四件事:Claude Code 体感更快,Anthropic 的服务成本下降,你的订阅额度显得更耐用,长时间编码会话也变得更现实。

但如果命中率很低,所有人都会吃亏。

所以,双方的激励其实是一致的:Anthropic 希望你的缓存命中率更高,你自己也希望命中率更高。真正会拖后腿的,只是一些看似不起眼、却会悄悄重置缓存的小习惯。

缓存是如何在每一轮对话中增长的?

缓存依赖的是 prefix matching,也就是「前缀匹配」。

不用陷入太深的技术细节,你只需要理解一点:只要某个位置之前的内容和已经缓存的内容完全一致,Claude 就可以复用这部分缓存 Token。

一次全新的会话,大致是这样展开的:

根据 Claude Code 文档,一个全新会话通常是这样运行的:

第一轮对话:还没有任何缓存。系统提示词、你的项目上下文(比如 CLAUDE.md、memory、规则),以及你的第一条消息,都会被重新处理一遍,并写入缓存。

第二轮对话:第一轮中的所有内容现在都已经被缓存。Claude 只需要处理你的新回复和下一条消息。这一轮成本就会低很多。

第三轮对话:逻辑相同。之前的对话仍然保留在缓存里,只有最新的一轮交互需要重新处理。

缓存本身可以分成三层:

来自 Thariq 的 X 文章:

系统层(System layer):包括基础指令、工具定义(read、write、bash、grep、glob)和输出风格。这一层是全局缓存的。

项目层(Project layer):包括 CLAUDE.md、memory、项目规则。这一层按项目缓存。

对话层(Conversation):包括回复和消息,会随着每一轮对话不断增长。

如果在会话中途,系统层或项目层的任何内容发生变化,所有内容都必须从头重新缓存一遍。这就是最「贵」的操作。可以想象一下:你已经聊到第 16 条消息,这时突然改了系统提示词,或者中途停了一个小时,那么从第 1 条消息开始的所有 Token 都要被重新处理一遍。

1 小时和 5 分钟的混淆

这是最容易让人误解的地方。

Claude Code 订阅版:默认 TTL 是 1 小时。

Claude API:默认 TTL 是 5 分钟。你可以付出更高成本,把它提升到 1 小时。
任何计划下的 Sub-agent:永远是 5 分钟。

Claude.ai 网页聊天:官方没有明确记录。可能和订阅版一样,但我还没有确认。

几个月前,很多人抱怨 Claude 订阅额度消耗得太快。当时有人以为 Anthropic 悄悄把 TTL 从 1 小时降到了 5 分钟,而且没有通知用户。但事实并不是这样,Claude Code 的 TTL 仍然是 1 小时。

问题在于,Claude Code 和 API 的文档是分开放的,而这两者本来就是完全不同的东西,于是造成了不少混淆。

如果你在大量运行 Sub-agent 工作流,或者直接使用 API,那么 5 分钟这个数字很重要。但对于 95% 的 Claude Code 用户来说,真正需要关注的,其实只有那个 1 小时窗口。

覆盖 95% 用户的三个习惯

下面这些,是我觉得日常使用中真正有用的部分。

不要暂停太久

如果你已经空闲超过一个小时,之前的内容基本都已经从缓存里过期了。你的下一条消息会重新构建缓存。这种情况下,与其继续恢复一个已经「变凉」的旧会话,不如做一次清晰的交接,然后开启一个新会话,成本通常更低。

切换任务时,直接重新开始

/compact 或 /clear 本来就会破坏缓存,所以不如趁这个节点真正重置一次。

我自己做了一个 session handoff skill,用来替代 /compact。它会总结我们已经完成了什么、还有哪些待定决策、哪些文件最重要,以及接下来应该从哪里继续。然后我执行 /clear,把这份总结贴进去,就可以像什么都没中断一样继续推进。

compact 命令有时候运行得也很慢。而这个 handoff skill 通常不到一分钟就能完成。

在 Claude 聊天里,大文档尽量放进 Projects

Claude.ai 上的缓存机制没有非常详细的官方说明,但 Projects 显然和普通对话线程采用了不同的优化方式。所以,如果你要粘贴很大的文档,最好把它们放进 Project,而不是直接塞进对话里。

哪些操作会悄悄破坏缓存?

有几件事会在没有明显提醒的情况下,把缓存全部重置。

切换模型:因为缓存依赖前缀匹配,而每个模型都有自己的缓存。只要切换模型,下一次请求就会在没有任何缓存命中的情况下,重新读取完整历史。

「Opus plan」模式:这个设置会在规划阶段使用 Opus,在执行阶段使用 Sonnet。我之前在一些 token 优化视频里推荐过它,是有原因的。但需要理解的是,每一次切换 plan,本质上都是一次模型切换,也就意味着要重新建立缓存。从长期看,它仍然有助于延长会话额度,但你需要知道底层到底发生了什么。

会话中途编辑 CLAUDE.md 是可以的:这个修改不会立刻生效,要等下一次重启才会应用。因此,当前正在运行的缓存不会受到影响。

我的免费 Token 仪表盘

我前面展示的截图,来自一个 token dashboard。

这是一个很简单的 GitHub 仓库。你把链接交给 Claude Code,让它在本地 localhost 上完成部署,它就会读取你过去所有的会话记录,而不是从空白状态开始统计。你一上来就能看到每天的 input、output、cache create 和 cache read 数据。

不过有一点需要注意:这个仪表盘统计的是本地设备上的 Token 数据。如果你从台式机切换到笔记本,数字就不会完全一致。每台设备都有自己的一套统计视图。

总结

Prompt caching 是一个可以研究得很深的东西。Thariq 那篇文章讲得比这里更完整,如果你想看全貌,值得去读。

但你不需要完全理解所有细节,才能从中受益。你只需要掌握最关键的 80/20:缓存 Token 比普通 Token 便宜 10 倍;Claude Code 的 TTL 是 1 小时;切换模型会破坏缓存;在任务之间做好清晰交接,通常比让一个旧会话放到「过期」后再硬接着用更划算。

你可能也喜歡

对话达利欧：当下正处AI泡沫中，投资组合的1%是比特币

桥水基金创始人瑞·达利欧在访谈中指出，当前AI热潮已显现经典泡沫特征，高估值与过度借贷可能在未来经济变故下引发资产抛售与衰退。他强调，这背后是更宏大的“大周期”在起作用，即贫富差距、政府债务高企及地缘政治变动共同驱动的约80年循环，目前全球秩序正处力量交替的衰退阶段。为应对不确定性，达利欧建议个人投资者进行多元化资产配置，包括股票、黄金、债券等，而非仅持有现金。他透露自己投资组合中约有1%为比特币，认为其具备硬通货特性，但个人更偏好实物黄金。对于AI的影响，他认为这将在更高层面替代人类思维，加剧贫富差距，而善于运用人类情感、直觉并与AI协作的人将更具优势。谈及英美热议的“财富税”，达利欧认为操作困难，可能引发资本外流或刺破泡沫。关于世界秩序，他预判未来可能走向区域化发展，而非单一主导。最后，他指出美国卷入伊朗冲突暴露了其军事与经济影响力的脆弱性，类似历史上大英帝国的衰落征兆。

marsbit2 小時前

marsbit2 小時前

单日 7.2 万亿韩元，外资周五净买入创纪录！华尔街：韩股资金面逆风已经消退

韩国股市资金面出现实质性转机。7月31日，外资单日净买入KOSPI股票约7.2万亿韩元，创历史最高纪录，标志着持续数月的外资净流出趋势发生根本逆转。7月外资净卖出规模已大幅收窄至9.8万亿韩元，远低于5、6月的水平。同时，国内养老金及基金在7月转为净买入1.0万亿韩元。监管层面，韩国金融服务委员会自7月31日起收紧散户投资单股杠杆ETF的门槛，新规实施后相关产品成交量已降至月均水平的约50%，有助于平抑市场短期波动。花旗研究维持KOSPI年内目标点位10000点不变，认为资金面逆风正在消退。支撑因素包括存储芯片行业基本面稳健、KOSPI估值处于历史低位、韩国经济基本面强劲以及政策环境友好。花旗还指出，若有必要，韩国金融当局存在提供流动性支持的可能性，为市场提供了政策底部支撑。

marsbit2 小時前

marsbit2 小時前

突发！OpenAI下一代AI攻克10项菲尔兹奖级难题

OpenAI发布其下一代AI模型Astra，在数学领域取得轰动性突破，一举攻克了10个长期未解的难题，其中多项成果被专家评价为“菲尔茨奖级别”。这些突破涵盖了高维几何、群论、算子代数等多个核心数学分支，相关论文长达249页。最引人注目的成果包括：构造出首个无限有限呈现的“非sofic群”，否定了自1999年提出相关猜想；在高维球体堆积问题上，打破了自1978年以来人类未能突破的理论极限；推翻了菲尔兹奖得主Alain Connes提出的“刚性猜想”，构造出无限多不同构但生成相同冯·诺依曼代数的群。据称，生成这10项证明的总计算成本仅约2000美元。所有证明均通过了Lean 4形式化验证，确保了其严密性。这一系列成果被视作AI在深度推理和数学直觉上的重大飞跃，标志着AI已成为数学研究领域的强大工具。

marsbit3 小時前

marsbit3 小時前

如何让自己变得让人工智能永远也无法取代

面对人工智能的冲击，许多人担心工作被取代。然而，真正的威胁在于个人对他人和系统的依赖，以及由此产生的“薪资奴役”——即为生存而从事无意义、枯燥的工作。摆脱这种困境的关键，不是抵制技术，而是成为拥有高自主性的“不可受雇”个体。文章提出了成功抵御AI替代的五个核心要素：自主性（主动行动的能力）、品味（判断事物价值的经验）、说服力（让他人关注你工作的能力）、毅力（坚持并从错误中学习）和迭代（根据反馈持续改进）。这些能力无法仅通过理论学习获得，必须通过实践来培养。要启动转变，首先要彻底改变环境，重塑身份认同。其次，应选择一个能获得真实、快速反馈的实践领域，例如创业。在众多技能中，内容创作（媒体）比编写代码更具优势，因为其价值是主观的，需要独特的审美和判断力，这正是AI目前难以完全复制的。具体行动上，可以从三个步骤开始： 1. **挖掘原始素材**：反思自己长期痴迷的知识领域、轻松解决的难题或童年被压抑的兴趣，找到独特的个人经验。 2. **确立反向思考主轴**：找出你坚信但主流观点错误的地方，或行业内普遍忽视的“皇帝新衣”，形成独特的批判性视角。 3. **立即发布**：将前两步的思考融合，撰写并发布第一个核心内容（如帖子、视频），勇敢接受真实世界的反馈，并在此基础上持续学习和迭代。最终，抵御AI的关键在于构建一份与自身身份深度契合的毕生事业，通过持续的内容创作和真实互动，建立无法被自动化取代的独特价值和影响力。行动，从今天发布第一个想法开始。

marsbit4 小時前

marsbit4 小時前

通过掷骰子离线保管比特币密钥：并非人人愿意为之

文章探讨了通过投掷骰子生成比特币钱包种子短语的安全方法及其现实挑战。核心观点如下： **1. 骰子提供物理熵源** 骰子结果由众多微小变量决定，理论上虽可预测，但实践中无法被攻击者复制或计算，从而提供高质量的随机性。每个六面骰子投掷约产生2.585比特熵，50次投掷即可满足典型12词助记词（128比特熵）的安全需求。 **2. Coldcard漏洞事件凸显手工熵源的价值** 近期Coldcard硬件钱包因固件漏洞导致其内部随机数生成器存在缺陷，致使约1128枚比特币被盗。但那些**完全**通过足量骰子投掷生成种子短语的用户未受此漏洞影响，因为他们的主密钥未使用有缺陷的生成器。 **3. 重要警示：手工种子并非万能保护** 安全研究员指出，即使用户使用骰子生成了安全的种子，若他们使用了Coldcard的其他功能（如生成纸钱包、克隆密钥、共享签名密钥、密码等），这些**衍生密钥**仍可能调用有漏洞的随机数生成器，从而存在风险。安全种子不保证设备生成的所有秘密都安全。 **4. 手工生成熵源的现实局限性** 尽管数学上可靠，但该方法对大多数用户并不友好： * **过程繁琐易错**：需投掷50-99次，精确记录，任何输入错误都会导致钱包完全不同。 * **引入新风险**：用户可能在记录、转换过程中泄露信息，或使用有偏的骰子/投掷方式。 * **用户体验差**：难以想象大规模推广需要用户手动投掷近百次骰子。安全措施需适应现实生活场景和普通用户的知识水平。 **5. 给用户的建议** 受影响的Coldcard用户应： * 更新固件至最新版。 * 检查是否使用过有漏洞的功能生成了次级密钥或密码，如有则需立即更换。 * 考虑采用多签方案，使用不同厂商的设备分散风险。 **结论**：手工投掷骰子生成熵源是技术娴熟用户的一个有效安全选项，但其过程复杂、容易出错，不适合作为主流用户的默认方法。长远目标是依赖安全、透明且无需专业知识的硬件/软件随机数生成方案。

cryptonews.ru7 小時前

cryptonews.ru7 小時前

交易

現貨

一周省下3亿Token，Anthropic工程师的Claude Code缓存指南

文章摘要

TL;DR

缓存到底怎么算钱?

缓存是如何在每一轮对话中增长的?

1 小时和 5 分钟的混淆

覆盖 95% 用户的三个习惯

不要暂停太久

切换任务时,直接重新开始

在 Claude 聊天里,大文档尽量放进 Projects

哪些操作会悄悄破坏缓存?

我的免费 Token 仪表盘

总结

熱門幣種推薦

相關問答

你可能也喜歡

对话达利欧：当下正处AI泡沫中，投资组合的1%是比特币

单日 7.2 万亿韩元，外资周五净买入创纪录！华尔街：韩股资金面逆风已经消退

突发！OpenAI下一代AI攻克10项菲尔兹奖级难题

如何让自己变得让人工智能永远也无法取代

通过掷骰子离线保管比特币密钥：并非人人愿意为之

交易

熱門文章

如何購買PEOPLE

相關討論

熱門問答

熱門分類

熱門標籤