YC眼中的五种AI Agent核心形态

marsbit發佈於 2026-05-20更新於 2026-05-20

文章摘要

本文总结了AI Agent发展中的五种核心架构形态，这些形态正从一次性提示应用转向可复用、可积累的工作流系统。 1. **Skills（技能）**：将标准作业流程抽象为可参数化的“方法调用”。同一套流程通过更换参数可处理一类问题，而非单一具体任务。 2. **Thin Harness（轻量执行框架）**：作为模型的“手脚”，负责任务循环、文件管理等基础执行功能。其设计应保持轻量，避免因功能过度堆积导致“上下文腐化”。 3. **Resolvers（解析器/路由）**：通过明确的路由规则，将任务类型映射到对应Skill，解决因技能过多而导致的模型调用混乱问题，确保输出稳定。 4. **Latent vs. Deterministic（潜在与确定性）**：需明确分工。LLM擅长判断、综合等非确定性任务；而算术、优化等需稳定输出的工作，则应交给确定性代码处理。 5. **Memory（记忆）**：系统积累知识的基础。可采用Markdown文件夹等形式，记录“当前可信结论”和只增不减的时间线，使经验得以沉淀并可被自动关联与更新。这些模块共同构成了一种“流程能力”，将经验转化为结构化、参数化的工作流。相比容易被复制的一次性应用，这种深度集成的系统更难被模仿，有望成为个人或组织在AI时代构建长期竞争优势的基础。其本质是将服务产品化，通过编码流程、分离关注点与持续积累记忆，实现更高效、更优质且更具壁垒的产出。

编者按:当 AI Agent 从一次性 Prompt 和 vibe coding,进入更复杂的工作流阶段,真正重要的问题已经不再是「模型能不能完成任务」,而是「能否把 AI 能力沉淀为可复用、可积累的流程资产」。

本文从 Garry Tan 的 GBrain 出发,总结了当前许多人在使用 Codex、Claude Code、Hermes 等 Agent 工具时逐渐收敛出的五种核心形态:可参数化的 Skills、轻量执行框架 Thin Harness、负责路由的 Resolvers、区分模型判断与确定性代码的执行层,以及用于长期积累上下文的 Memory。

这些模块组合在一起,指向的是一种新的「过程能力」:把经验写成流程,把任务抽象成参数,把稳定规则交给代码,把判断和综合交给模型,再通过记忆层持续沉淀。相比一次性生成的应用或提示词,这种系统更难被复制,也更可能成为个人、小团队乃至公司在 AI 时代形成长期竞争优势的基础。

以下为原文:

我花了一些时间研究 Garry Tan 的 GBrain。作为一个非技术背景、也不在风投行业工作的人,我想提炼一下其中我看到的几种通用结构形态,以及它真正有意思的地方。

我认为,很多人正在逐渐收敛到同一组核心结构上。它们大概可以概括为 5 种形态,也代表了 Codex、Claude Code、Hermes、OpenClaw 等智能体式 AI 工具在使用方式上的自然演进方向。

相关阅读:《瘦 Harness,胖 Skill:100 倍 AI 生产力的真正来源》

Skills:从 SOP 到「方法调用」

Skills 几乎是所有人最自然的起点。即便没有人提醒,用户也会下意识去构建它,因为它的形态非常熟悉。我一开始把它理解为一种 SOP,也就是用于完成某件事的标准作业流程。用户提供「要做什么」,Skill 提供「怎么做」。

Tan 的理解是,Skill 更像是一次「方法调用」。在编程里,方法调用指的是用参数来调用某个程序流程。同一段代码每次都会运行,变化的是参数:什么数据、什么问题、什么目标。比如同一个 process_invoice 函数,可以处理系统里的每一张发票,而不只是它最初被写出来时对应的那一张。

Skill 也是类似的结构。一个名为 /investigate 的 Skill 可能包含七个固定步骤,这七个步骤不会变。变化的是参数:TARGET(调查对象是谁或是什么)、QUESTION(你想弄清楚什么)、DATASET(去哪里找信息)。把它指向一个医疗行业举报人案例,它就像一个研究分析师;把它指向 SEC 申报文件,它就像一个法务调查员。同一个文件、同样的七个步骤,差别由外部世界提供。

这和传统 SOP 是不同的。大多数 SOP 都是为某一个具体岗位或任务编写的,比如「处理应付账款」。每个使用场景对应一套流程。而 Skill 的抽象程度更高,同一套流程可以处理一类问题。一个设计良好的 Skill,可以完成几十份 SOP 的工作,因为具体案例的信息被从文档中抽离出来,转移到了参数里。具体到实际使用,有些 Skill 更接近 SOP,有些则更接近方法调用。

Thin Harness:模型是智能,Harness 是手脚

模型,比如 Opus、GPT-5.5 等,是原始智能;Harness,比如 Claude Code、Codex CLI、Hermes、OpenClaw,则是让模型真正「有手脚」的执行框架。它们负责循环执行、读写文件、管理上下文、执行安全约束。其核心代码大约只有 200 行。

Garry 提到,大多数人都会犯的一个错误是不断往 Harness 里塞更多东西,我自己也是这样。我最后积累了 100 个工具定义,以及一堆 MCP 服务器。结果是,上下文窗口被大量当前任务并不需要的工具说明占满。模型开始混淆到底该用哪个工具,延迟上升,准确率下降,最终形成所谓的「上下文腐化」。

Resolvers:用路由表解决上下文腐化

解决上下文腐化的方法,是建立一张路由表。Resolver 的作用是把「刚刚进来的任务类型 X」明确映射到「应该调用 Skill Y」。当你只有 5 个 Skill 时,你不需要 Resolver;但当你有 100 个 Skill 时,各种描述会变得模糊,模型很容易无法在正确时间调用正确的 Skill。Resolver 用明确规则替代了模糊的模式匹配。

Tan 还为文件运行了一套类似 Resolver 的机制:一张独立的路由表,用来决定某个 Skill 的输出应该落到文件系统中的哪个位置。这是同一种「审计—路由」结构,被应用到了另一个问题上。这样一来,输出就会稳定地进入正确文件夹,而不是放到模型临时猜测的位置。

Skillify 是他的另一个配套思路:它是一套质量循环,用来把一次性的 Skill 变成可长期复用的基础设施。Tan 描述的 10 步流程包括:契约定义、在适合的地方使用确定性代码、单元测试、集成测试、LLM-as-judge 评估、Resolver 条目、审计脚本、检查哪些 Skill 没有调用路径,以及端到端冒烟测试。测试标准很简单:如果你必须向模型重复问同一个问题两遍,那就是失败。

Latent vs. Deterministic:判断交给模型,确定性任务交给代码

需要认真区分哪些工作应该交给 LLM,哪些应该交给确定性系统。LLM 擅长判断、综合、模式识别和读懂言外之意;但它不擅长算术、组合优化,也不适合处理任何需要每次给出同一个答案的任务。LLM 本质上是概率性的,当确定性方案可以解决问题时,就不应该用 LLM。

大多数非技术背景的人,往往低估了确定性层的价值。大家的默认反应,是把所有事情都丢给模型。但如果某件事可以用确定性方式完成,那几乎就应该这样做。而且你不需要自己是程序员,因为模型可以替你写代码。真正需要训练的是一种纪律:每次都问自己,这件事能不能用代码稳定、低成本地完成?如果答案是可以,就让模型把那段代码写出来。

Memory:让系统真正可积累

要让系统有用,它必须具备某种形式的记忆。我还不确定最正确的形态是什么,现在很多人也在用不同方式构建:向量嵌入、语义相似度、知识图谱、混合存储等。Tan 的做法和我一样:就是一个 markdown 文件夹。

他的结构是:每个人一页、每家公司一页、每个概念一页。每一页顶部是「当前可信结论」,也就是随着新证据不断重写和更新的综合判断;底部则是一条只追加、不覆盖的时间线。

选择 markdown 会带来几个结果。首先,文件本身就是系统的主记录,而不是某种导出结果。你可以在 VS Code 里打开它、手动编辑它,Agent 会自动读取这些变化。其次,类型化关系,比如 works_at、invested_in、founded、attended、advises,会在每次写入时通过正则表达式自动抽取出来,因此知识图谱可以在不消耗 token 的情况下自行连接。这个具体 schema 很适合他的工作,但对其他人来说,可能需要根据自己的职业和业务场景重新定制。

此外,还有一个信号探测器在后台运行。某个人被提到一次,就会生成一个 stub 页面;如果他在多个来源中被提到三次,就会触发网页信息补全;一次会议结束后,则会运行完整流程。夜间的「dream cycle」会扫描对话、补全过时实体信息,并修复失效引用。基础层是文本,在此之上的所有东西都便宜、可组合。

底层当然还有更多细节,但我认为,这些就是其中最重要的轮廓,而且它们在相当程度上具有普适性。

我自己其实已经搭建了大约一半这样的架构。过去还没有达到必须引入真正 Resolver 的规模,但现在已经到了这个阶段,所以我刚刚做了一轮小重构,让自己的系统变得模型无关,并内置 Resolver。目前我还没有搭建的关键部分,是后台自动运行的信号探测器和夜间 dream cycle,也就是自动信息补全与整理机制,这是我接下来想尝试加入的部分。

我怀疑,不同构建者正在向类似结构收敛,本身就是一个信号:这种形态虽然未必适用于所有人,但总体上大概率是有用的。即便具体实现细节会有重要差异,但这种总体结构,正在被越来越多人独立摸索出来。

我最近一直在问自己的问题是:如何用 AI 建立可持续的竞争优势?

大家都对 vibe-coded 应用和一次性 prompt 很兴奋,这当然非常酷。我自己最开始也是这样玩起来的,并因此入坑。但任何可以通过一次性 prompt 构建出来的东西,它的均衡价格最终都会下降到构建它所需的 token 成本,也就是几美分。

比如有人复制了 MyFitnessPal,用一半价格出售并赚了 100 万美元,这当然很厉害。但很快就会有人再复制它,并以更低价格出售。这个循环会不断继续,直到利润空间被完全压缩。

真正可持续的东西,是某种「流程能力」。用 Hamilton Helmer《7 Powers》的框架来说,上面这套架构隐含的,正是 process power。

《7 Powers》提出,企业之所以能够长期维持高于市场平均水平的利润率,是因为它拥有七种结构性力量之一。任何没有扎根于这些力量的优势,最终都会被竞争侵蚀。

对中小企业和早期公司来说,Helmer 的七种力量中有五种基本是关上的门。规模经济需要规模;网络效应和转换成本可以建立,但需要先积累庞大的用户基础;独占资源通常意味着专利或类似资产,这并不是多数公司能够拥有的东西;品牌则通常需要十年时间积累,无法走捷径。

剩下的两种,是反定位和流程能力。

反定位指的是一种现有巨头无法模仿的商业模式,因为一旦模仿,就会伤害它自己的既有业务。这种机会有时存在,但并不总是可得。

于是,最现实的路径就剩下流程能力。而一个设计良好的 AI 系统,恰恰就是能够生成流程能力的工具。

这和建立高质量 SOP 或自研专有软件,本质上是同一种工作:流程被编码,案例被参数化,底层确定性系统快速且可靠,记忆层则不断承接过去学到的东西。它让「产品化服务」被进一步放大:你能够以更低成本或更高质量提供某种服务或产品,因为整个工作已经被结构化了。

想象一位会计师搭建了这样一套系统。记忆层是一个文件夹,每个客户都有一个 markdown 文件,里面包括当前可信结论,比如实体结构、年度税务立场、正在进行的审计,以及一条时间线,记录会议、决策和发生的变化。

她有一些 Skill,比如 /year-end-review、/quarterly-estimate、/audit-prep。同一套流程可以针对不同客户进行参数化执行。

她还有一个确定性层,包括税表、折旧表、IRS 文件、客户历史税表等。

再加上一套类似日志整理或 dream cycle 的机制。比如系统在夜间自动发现某位合伙人的 K-1 分配在没有策略变化的情况下下降了 40%;或者注意到某个客户的家庭办公室扣除结构,可以迁移到另一个客户身上,结构可以复用,但身份和隐私仍然留在原处。

这样一来,她可以收取少量溢价,每年服务更多客户,而竞争对手很难复制,因为这套结构并不是等她成功后才凭空出现的,而是从一开始就在持续积累。

从表面看,这个工具只是一个 markdown 文件夹。但每个文件里的每一行,背后都来自大量有意识的测试、搭建和迭代。真正形成竞争壁垒的,不是文件本身,而是这些文件所承载的流程能力。

你可能也喜歡

如何识别加密骗局或“抽地毯”陷阱？

如何识别加密货币骗局或拉地毯（rug pull）？想象一下发现一个前景广阔的新代币，拥有数千持有者、价格上涨、社区活跃，一切看似可靠，直到流动性突然消失——这就是拉地毯骗局的开始。开发者通常先通过锁定流动性、放弃合约来制造信任，再通过社交媒体炒作吸引资金。骗局往往在48-72小时内完成从造势到撤资的全过程。硬拉地毯会一次性抽走流动性，软拉地毯则通过内部抛售、代币解锁等方式缓慢侵蚀价值。最终流动性枯竭，代币失去市场信心。大多数骗局存在共性风险：代币供应高度集中在少数开发者钱包（前5-10名持有者控制超30%供应量）、智能合约暗藏铸造功能或可升级权限、市场行为依赖网红推广而非有机增长。历史上如SQUID等骗局均呈现这些特征。常见欺诈手段包括：蜜罐合约（允许买入但限制卖出，占98,442个骗局代币）、隐藏铸造功能（占60,985例）、虚假放弃合约所有权（占48,974例）。防范关键在于综合审视链上数据、合约代码和市场行为，关注代币是否采用透明解锁机制、第三方审计和真正去中心化控制。

ambcrypto46 分鐘前

ambcrypto46 分鐘前

XRP未平仓合约达26亿美元，衍生品需求激增

XRP期货未平仓合约总额已飙升至26亿美元，24小时内增幅超过10%，使其成为按该指标计算的第四大加密货币资产。未平仓合约增长表明衍生品市场对XRP的兴趣显著升温，更多资本正在进入。但这本身并不等同于现货买入，可能反映多头、空头、对冲或杠杆投机等多种策略。因此，单纯这一数据无法判断市场看涨或看跌。 XRP衍生品活动激增可能源于对市场结构、ETF相关猜测或瑞波公司动态的预期，但现有信息不支持将此直接解读为机构在积累现货。高杠杆是一把双刃剑。未平仓合约的增加既能助推价格大幅波动，也可能在市场反转时引发连锁清算，增加市场脆弱性。关键在于后续走势：若价格上涨伴随稳定的衍生品条件，则新增头寸可能被健康吸收；若价格突然逆转，则可能转化为强平压力。对于看涨者而言，最有力的确认信号将来自现货市场的配合。如果未平仓合约增长的同时，现货交易量、交易所需求和市场广度也同步走强，则更具建设性；反之，若现货需求疲软，则本轮活动可能更偏向投机。总之，26亿美元的里程碑标志着XRP重新吸引了大量衍生品市场的关注，但并未预示明确方向。下一步的关键是观察这些资本是能支撑起更强劲的趋势，还是仅仅为这个本就活跃的市场增添了更多波动性。

bitcoinist2 小時前

bitcoinist2 小時前

比特币2030年价格预测：关于下一次牛市你需要了解的信息

比特币自2025年10月10日暴跌后一直处于熊市。分析指出，需关注稳定币流入交易所的动向，因为大量流入是推动牛市的必要“燃料”。目前该指标为负值，需转为正值才能预示市场情绪转向。分析师Joao Wedson基于历史对称性预测，本轮周期底部可能在2026年10月上半月到达，区间约为4.15万至4.5万美元。从技术分析看，若遵循上一周期模式，比特币可能回撤至3.91万美元附近，随后有望突破15.23万美元的斐波那契扩展位。长期展望认为，随着机构加速采用，比特币在2030年可能达到20万至22万美元的高点，然后进入下一个熊市周期。但需要注意的是，当前周期可能比以往更长。

ambcrypto2 小時前

ambcrypto2 小時前

BTC市场脉搏：第30周

比特币市场脉搏：第30周。比特币从58,000美元下方反弹后短暂测试65,000美元，随后转入约64,500美元的区间盘整，上涨动能放缓，现货交易量依然清淡。尽管反弹得以维持，但短期势头减弱表明市场仍在寻找更稳固的平衡点。同时，波动率利差收窄，显示随着市场情绪不再那么防御性，衍生品市场不再计价显著的风险溢价。尽管现货参与度不高，但投机需求正逐步回归。期货和期权未平仓合约增加，永续合约资金流向转为净买入，对下行保护的需求有所缓解。较低的看多资金费率表明头寸正被更谨慎地重建，未出现通常与过热行情相关的激进杠杆。链上活动也在企稳，经济吞吐量和参与者活跃度的小幅改善提供了支撑。资金流动依然谨慎，月度已实现市值收缩反映了这一点，但美国现货ETF资金流恢复以及ETF持仓接近回本，显示机构抛压正在消退。总体而言，市场似乎趋于平衡，长期信念提供支撑，而投机参与依然受限。综上，比特币仍处于盘整阶段，投资者盈利水平良好和衍生品头寸稳定提供了支撑。然而，短期、价格敏感性资金占比增加，可能加剧波动性，使得市场虽具韧性，但对势头转变和卖盘压力将更为敏感。

insights.glassnode4 小時前

insights.glassnode4 小時前

尽管ETF持续流入，新资金踌躇致比特币现货需求疲软

尽管比特币现货ETF资金自7月14日起持续净流入，但新增资本犹豫不前，导致比特币现货需求减弱，价格仍难以有效突破6.5万美元附近的局部阻力区。数据显示，30天比特币现货需求已从7月初的-8万枚恶化至-17万枚。同时，衡量新资本活动的“比特币新投资者”指标虽有小幅回升，但仍接近年度低位，表明新增资金力度不足以推动趋势反转。此外，短期持有者支出产出利润率（STH SOPR）的7日移动平均值低于1.0，意味着短期持有者普遍处于亏损状态，市场情绪尚未转向积极。综合来看，当前市场呈现局部企稳特征，而非真正的看涨反转，卖压依然占据主导。

ambcrypto5 小時前

ambcrypto5 小時前

交易

現貨

YC眼中的五种AI Agent核心形态

文章摘要

Skills:从 SOP 到「方法调用」

Thin Harness:模型是智能,Harness 是手脚

Resolvers:用路由表解决上下文腐化

Latent vs. Deterministic:判断交给模型,确定性任务交给代码

Memory:让系统真正可积累

熱門幣種推薦

相關問答

你可能也喜歡

如何识别加密骗局或“抽地毯”陷阱？

XRP未平仓合约达26亿美元，衍生品需求激增

比特币2030年价格预测：关于下一次牛市你需要了解的信息

BTC市场脉搏：第30周

尽管ETF持续流入，新资金踌躇致比特币现货需求疲软

交易

熱門文章

如何購買CORE

相關討論

熱門問答

熱門分類

熱門標籤