Skill 的正确打开方式：Anthropic 公开内部方法论后的 5 点反思

marsbit發佈於 2026-06-08更新於 2026-06-08

文章摘要

Anthropic团队公开了其内部构建Claude Code时使用Skill的方法论，文章指出Skill的本质是“上下文工程”，旨在沉淀组织内的隐性知识，而非简单堆砌提示词。核心反思包括五点： 1. **避免废话**：Skill应专注于记录模型不知道的“Gotchas”（常见陷阱），如特定系统的独特限制或易错点，而非重复常识。 2. **Skill是上下文工程**：Skill应是一个结构化的文件夹（包含导航文件SKILL.md、参考资料、脚本、示例等），而非单一文档。核心原则是“渐进式暴露信息”，只在需要时加载相关内容，以优化上下文使用，避免信息过载导致模型性能下降。 3. **优先使用脚本**：将重复性、确定性的操作流程（如数据查询、格式化）封装成脚本，而非写入冗长的指令。脚本能固化最佳实践，确保执行准确并节省Token，让模型专注于需要经验和判断的部分。 4. **描述是路由规则**：Skill的描述（Description）应清晰说明“在什么用户意图或场景下应加载此Skill”，而非罗列功能。这有助于模型在众多Skill中做出准确的调用决策。 5. **轻量级管理与分发**：Skill的管理应随团队规模灵活调整。初期可随项目代码库共享。数量增多后，可借鉴Anthropic的轻量级思路：新Skill先在小范围试用和自然传播，经受真实场景检验后，再被广泛采纳或纳入官方市场，避免繁重的审批流程。总之，优秀的Skill解决的是知识沉淀、能力复用和上下文优化问题，其价值在于将分散的专家经验转化为团队可稳定调用的能力。

作者:AI 产品阿颖

看了一篇 Anthropic 团队写的博客《Lessons from building Claude Code: How we use skills》。这应该是我目前看到关于 Skill 最深入的一篇实践总结了。

Skill 这东西其实不复杂,但真正想把 Skill 做好,我觉得也没那么容易。

我记得 Skill 刚火的时候,大家特别喜欢做各种文风 Skill、写作 Skill。好像只要把自己的写作风格塞进去,模型就能稳定按照这个风格输出。

但我后来自己试了一圈,发现很多时候根本不可行。

因为一个文风 Skill 可能就塞进去几千字甚至上万字内容。Skill 一加载,上下文就占掉很大一块。上下文一重,模型的思考能力反而容易下降。

最后经常出现一种情况:风格倒是学到了,但内容变浅了,分析能力也变弱了。

还有一种常见情况。

很多人写 Skill 的时候,喜欢往里面塞各种操作说明。第一步做什么,第二步做什么,第三步做什么。结果跑起来会发现,模型执行并不稳定。

后来我才慢慢理解,很多这种重复执行的工作,其实更适合沉淀成 Script,而不是写成长长的 Instructions。

看完 Anthropic 这篇文章之后,我最大的感受是,很多人其实都在用 Skill,但未必真正理解 Skill。

Skill 本质上是在做 Context Engineering。什么时候应该把知识放进 Skill,什么时候应该拆成 References,什么时候应该写成 Script,什么时候应该用 Gotchas 去约束模型,这里面其实有很多经验。

理解了 Skill 的运行原理之后,再回头看那些优秀的 Skill,会发现它们解决的从来都不是提示词的问题,而是在解决上下文、经验沉淀以及能力复用的问题。

如果大家想深度研究 Skill,特别推荐看两篇文章:

https://claude.com/blog/lessons-from-building-claude-code-how-we-use-skills

https://research.perplexity.ai/articles/designing-refining-and-maintaining-agent-skills-at-perplexity

#01 不要写废话

Skill 本质上是在沉淀组织里的「隐性知识」。所以,Skill 里不要重复它已经知道的常识。真正有价值的是其实是那些模型根本不知道的信息。

Anthropic 内部经常强调,Skill 真正要写的是 Gotchas,也就是常踩的坑。

比如:

1、这个表不能按 created_at 排序

2、staging 返回 200 不代表成功

3、request_id 和 trace_id 是同一个东西

因为这些信息往往存在于员工的经验里。所以一定要记住 Skill 本质是什么。

Skill = 把老师傅经验写下来。

通过 Skill,把原来散落在不同人脑子里的经验沉淀下来。

#02 Skill 其实是 Context Engineering

这可能是 Anthropic 最深刻的观点之一。

Skill 不是一个 markdown 文件,而是一个文件夹。对用过 Skill 的人来说,这话听上去像废话。

但我这两天反复琢磨,慢慢意识到:他们正是想用文件夹这个形式,来表达 Context Engineering 的理念。

我们再重新看一下典型的 Skill 结构:

skill/ ├── SKILL.md ├── references/ 放详细说明、API 参考、边界条件 ├── scripts/ 放可执行脚本 ├── examples/ 放示例 ├── assets/ 放模板、图片、固定素材

当调用某个 Skill 的时候,模型首先读取的是 SKILL.md。如果我们把所有的信息都塞进这个文件里,那很快就会上下文爆炸。

假设这是一个支付排障 Skill,里面既有 Stripe 的错误码说明,也有历史故障案例,还有排查脚本和最终报告模板。

如果这些内容全部堆进 SKILL.md,每次调用 Skill 的时候,Claude 都得重新读一遍。

哪怕用户只是想确认一个错误码的含义,哪怕只是想查看某个支付状态为什么没有更新。大量根本用不上的信息,也会被一起塞进上下文。

而 Anthropic 的思路完全不同。

SKILL.md 更像一个导航页。它的职责是告诉模型,遇到 Stripe 错误的时候,去 references 里找对应说明。

需要参考历史案例的时候,去 examples 里查类似问题,需要真正执行排查动作的时候,运行 scripts 里的脚本,最后生成排障报告时,再使用 assets 里的模板。

整个过程是渐进的暴露。

下面这张图,强烈建议大家收藏。

#03 尽量用脚本

不要让模型把有限的上下文和推理能力浪费在重复劳动上。把这些事情交给脚本。

举个例子。很多人写 Skill 的时候,会这样写:

1. 查询注册数据;2. 查询付费数据;3. 计算转化率;4. 分析异常原因。

这种写法当然没问题。模型也能完成。但每次执行的时候,它都得从头把整个分析流程重新走一遍。

查询数据、整理数据、处理各种边界情况,这些工作其实都是重复的。

既然这些能力已经被验证过无数次。为什么还要让模型重新发明一次?不如直接提供具体的脚本。

而且通过脚本的方式, Skill 的执行也会更加准确,也更省 Token。

从这个角度看,Skill 里的 Scripts 其实是在沉淀组织能力。每一个脚本背后,往往都是团队过去踩过无数坑之后总结出来的最佳实践。

把这些能力固化下来之后。Claude 每次都能站在这些经验之上工作,而不是一次又一次从零开始。

所以我越来越觉得,Skill 中,Instructions 和 Scripts 解决的是两个不同层面的问题。

Instructions 提供的是经验和判断,Scripts 提供的是能力和执行。

举个例子,支付排障 Skill 里可能有这样一句:

如果 Stripe 返回 200,不要直接认为支付成功,需要进一步检查 payment_events 表。

这属于 Instructions。因为这是经验,而 check_payment_events() 属于 Script,因为这是执行能力。

如果只有 Script,模型知道怎么查,但未必知道为什么查。

如果只有 Instructions,模型知道应该查。但每次都得重新实现。两者缺一不可。

#04 Description 更像一个路由规则

很多人写 Skill Description 的方式天然就是错的。

因为大家习惯写成功能介绍。比如:PR Management Skill 帮助用户监控 PR 状态,处理 CI 问题,自动完成 Merge。

但问题在于,模型并不是通过功能去寻找 Skill 的,Claude Code 启动的时候,会先扫描所有 Skill 的名称和 Description。

然后根据用户当前的问题,判断应该加载哪个 Skill。

所以 Description 里最重要的信息,不是这个 Skill 能干什么,而是什么情况下应该加载它。

Description 其实承担着整个 Skill 的路由工作。

真实世界里,很少有人会说帮我调用一个 PR 管理工具。大家更可能说:帮我盯一下这个 PR、CI 又挂了之类。

所以一个好的 Description,应该尽量描述用户的意图,而不是罗列功能。

我甚至觉得可以用一个特别简单的方法检查。

写完 Description 之后,把整个 Skill 删掉,只保留这一行 Description。然后问自己:模型看到用户的问题之后,能不能知道什么时候该加载这个 Skill。

如果做不到,那大概率还得继续改。

#05 Skill 的管理和分发

还有一个是关于 Skill 的管理。

一个人用 Skill 的时候,这事其实很简单。自己写几个 Skill,自己维护,自己升级就行了。但我相信大部分团队后面都会遇到同一个问题。

当 Skill 从几个变成几十个,甚至几百个的时候,这些 Skill 应该怎么管理?怎么升级?怎么分发给团队成员?

Anthropic 在这方面的经验,我觉得挺值得参考。

团队规模比较小的时候,Skill 直接跟着代码仓库走。放在项目里的 .claude/skills目录就行。大家共享同一套 Skill,也共享同一套工作方法。

但随着 Skill 数量越来越多,一个新的问题出现了。

Claude Code 启动的时候,会扫描所有 Skill 的名称和 Description,然后判断当前任务应该调用哪个 Skill。Skill 越多,路由成本就越高。

这也是为什么 Anthropic 后来开始做 Marketplace。但更有意思的是,他们管理 Marketplace 的方式。

很多公司遇到这种问题,第一反应往往是建立一套审批流程。谁写了 Skill,先提交申请;审核通过之后,再进入官方 Skill 库。我们内部之前也这样做过,但非常重。为了管理而管理

我发现人家 Anthropic 的组织就很轻巧。

让新的 Skill 先在小范围传播,让同事自己安装、自己试用。

如果越来越多人开始使用,说明这个 Skill 确实解决了某个真实问题。到了这个阶段,作者再提交到正式的 Marketplace。

所以他们没有先讨论 Skill 有没有价值,而是先让它接受真实使用场景的检验,用的人多了,自然就进入正式体系。这样留下来的 Skill,基本都是团队真正需要的 Skill。

你可能也喜歡

黄仁勋「拯救」韩国股市：锁定SK海力士内存，芯片短缺还将持续

6月5日，韩国股市经历“黑色星期五”，KOSPI指数暴跌。6月8日盘中跌幅一度超8%，触发熔断，三星与SK海力士股价重挫。在此市场动荡之际，英伟达CEO黄仁勋的访韩起到了“救市”作用。 6月7日晚，黄仁勋与SK集团及SK海力士高层共进晚餐。餐后，他确认英伟达新款Vera CPU将采用SK海力士的DRAM，双方正为下半年及明年的“超大规模合作”做准备，并预计当前的内存芯片短缺将持续数年。随后，双方官宣了一份多年期技术合作协议，涉及AI超级计算机、机器人、数字孪生和半导体制造等领域。黄仁勋更公开表示，当前AI公司股价极具吸引力。合作具体包括：英伟达将Vera CPU等产品线的内存供应锚定SK海力士，共同开发下一代内存以支持AI基础设施。同时，SK海力士将利用英伟达的CUDA-X库和AI技术加速其芯片设计与制造流程，如计算光刻和构建晶圆厂数字孪生，目标是实现完全自主的工厂运营。此次合作早有铺垫。2025年10月，双方曾宣布在韩国合作建设大型AI工厂。尽管与SK海力士深化绑定，但英伟达在下一代HBM4内存上并未独家采购，三星、SK海力士和美光均已获得认证并将共同供货。黄仁勋指出，由于AI工厂建设导致需求激增，从晶圆到封装等整个半导体供应链的短缺状况预计将持续数年。黄仁勋此行还会见了现代、LG、三星等韩国企业，表明英伟达正系统性深化与韩国科技产业的联系，SK集团是其中的关键一环。

marsbit52 分鐘前

marsbit52 分鐘前

纳指单日跌幅4.2%，“黑色星期五”戳破美股泡沫？

2026年6月5日，美股遭遇剧烈回调，纳指重挫4.18%，创一年多最大单日跌幅，标普500指数结束九周连涨，半导体板块领跌。直接导火索是远超预期的5月非农就业数据，引发市场对经济过热和美联储推迟降息的担忧，美债收益率跳升，高估值的科技股首当其冲。此次暴跌暴露出AI板块积聚的脆弱性。过去18个月推动股市上涨的AI叙事出现裂痕，部分云服务商削减芯片订单，企业端AI应用变现不及预期，导致前期拥挤的交易出现踩踏式平仓。市场估值处于历史高位，多项指标（如席勒市盈率、巴菲特指标）显示美股已进入高估区间。同时，散户情绪乐观、杠杆水平高，而“聪明钱”如巴菲特的公司已囤积大量现金。技术面上，标普500指数关键支撑位被击穿，面临进一步调整压力。华尔街对此看法分化：空方认为这可能是泡沫调整的开始，经济存在滞胀风险；多方则认为这是牛市中的健康回调，经济基本面依然稳固，企业盈利增长仍有支撑。未来走势关键取决于即将公布的5月CPI数据和6月的美联储议息会议，其结果将重塑市场对利率路径的预期。总而言之，支撑美股高估值的核心支柱——降息预期发生动摇，AI叙事面临现实检验。市场正进入由宏观数据和盈利基本面主导的敏感阶段，投资者需保持谨慎，密切关注通胀数据与美联储政策信号。

marsbit56 分鐘前

纳指单日跌幅4.2%，“黑色星期五”戳破美股泡沫？

2026年6月5日，美股遭遇剧烈回调。纳斯达克综合指数重挫4.18%，创2025年4月以来最大单日跌幅；标普500指数下跌2.64%，终结连续九周上涨纪录。费城半导体指数暴跌逾10%，英伟达、美光等AI核心股领跌。此次暴跌的直接导火索是强劲的非农就业数据。美国5月非农新增就业远超预期，引发市场对经济过热和通胀反弹的担忧，导致美债收益率跳升。由于科技股对利率高度敏感，高估值的AI板块因此遭受重创，叠加市场对AI资本开支可持续性的质疑，形成抛售潮。暴跌引发了关于“美股是否见顶”的广泛讨论。暴跌前，多项指标显示市场估值已处历史高位，如标普500的席勒市盈率接近历史峰值，“巴菲特指标”也进入“严重高估”区间。同时，市场情绪曾极度乐观，而“聪明钱”与企业内部人士已出现减持迹象。技术面上，关键支撑位的跌破也为市场前景蒙上阴影。华尔街观点出现分化。看空派认为，当前高估值面临利率压力，AI泡沫可能破裂，市场存在显著回调风险。看多方则认为，这是牛市中的健康调整，强劲经济数据意味着衰退风险低，企业盈利增长仍将提供支撑。未来走势的关键在于通胀数据与美联储政策。即将公布的5月CPI数据以及随后美联储会议的点阵图，将成为决定市场调整性质的关键。若通胀持续粘性导致降息预期进一步推迟，市场可能继续承压。总之，极端估值、政策转向预期、核心AI叙事松动等多重风险信号同时出现，市场的风险收益比已显著恶化。投资者需保持谨慎，密切关注即将到来的关键宏观数据与政策信号。

Odaily星球日报1 小時前

智能体第一案，判了什么

4月30日，广州互联网法院作出国内智能体领域首份行为保全裁定，责令一款开源智能体软件停止提供下载、停止避开平台技术措施、删除相关教程和数据。该软件通过调用操作系统“无障碍服务”权限，绕过平台规则实现自动化操作，被诉侵害原告平台权益。此前，美国法院也在类似案件（Amazon起诉Perplexity）中发出禁令，理由同样是智能体绕过平台API直接操作页面，破坏了技术管理措施。两案共同指向智能体发展的核心法律问题：操作平台不仅需要用户授权，还需获得平台方授权，即“双重授权”原则。文章指出，平台反对此类绕过行为，主要出于权责对等的考量。若智能体绕过平台审核与安全机制，将导致内容管理、数据安全和隐私保护体系失效，责任归属模糊。这不仅是商业竞争，更是法律责任问题。以豆包手机为例，其1.0版本曾尝试通过系统权限直接操作其他App，但遭遇阻力；2.0版本则转向与生态厂商（如阿里）谈判授权、通过API接口合作，体现了从“绕过”到“合规”的战略调整。综合分析，中美司法案例及行业实践表明，智能体“野蛮生长”阶段已结束，行业正进入“合规竞赛”时代。合规成本成为重要门槛，“双重授权”渐成行业标准，开源亦不能免责。监管通过对激进典型案例的裁决，旨在引导整个行业走向规范合作。未来，预计将有更多智能体与平台通过授权对接，推动行业游戏规则重构。

marsbit1 小時前

marsbit1 小時前

因一篇14页论文被谷歌“赶走”，超4000人为其声援，6年后再看：当年她几乎预言了整个AI时代

2020年，谷歌伦理AI团队联合负责人Timnit Gebru因一篇未发表的论文与公司发生冲突并遭解雇，事件引发超4000人联名声援。这篇名为《随机鹦鹉的危险》的论文在当时极具前瞻性，指出大型语言模型本质是复现语言模式而非真正理解，并预警了多个风险：模型会生成看似合理但错误的信息（即如今的“AI幻觉”）；会学习并放大训练数据中的偏见；训练大模型将带来巨大的能源消耗与环境影响；训练数据难以审计，可能包含有害内容；AI生成内容充斥互联网将导致“模型崩溃”，并使话语权集中于少数科技巨头。如今，这些预言几乎全部应验，成为AI行业面临的现实挑战。Gebru离开谷歌后创立了分布式AI研究所，专注于研究科技巨头可能回避的伦理与社会问题。六年后再看，她并非反对AI发展，而是更早地看到了其中潜藏的深刻问题。

marsbit1 小時前

因一篇14页论文被谷歌“赶走”，超4000人为其声援，6年后再看：当年她几乎预言了整个AI时代

marsbit1 小時前

交易

現貨

合約

Skill 的正确打开方式：Anthropic 公开内部方法论后的 5 点反思

文章摘要

#01 不要写废话

#02 Skill 其实是 Context Engineering

#03 尽量用脚本

#04 Description 更像一个路由规则

#05 Skill 的管理和分发

相關問答

你可能也喜歡

黄仁勋「拯救」韩国股市：锁定SK海力士内存，芯片短缺还将持续

纳指单日跌幅4.2%，“黑色星期五”戳破美股泡沫？

纳指单日跌幅4.2%，“黑色星期五”戳破美股泡沫？

智能体第一案，判了什么

因一篇14页论文被谷歌“赶走”，超4000人为其声援，6年后再看：当年她几乎预言了整个AI时代

交易

熱門分類

熱門標籤