YC眼中的五种AI Agent核心形态

marsbit發佈於 2026-05-20更新於 2026-05-20

文章摘要

本文总结了AI Agent发展中的五种核心架构形态,这些形态正从一次性提示应用转向可复用、可积累的工作流系统。 1. **Skills(技能)**:将标准作业流程抽象为可参数化的“方法调用”。同一套流程通过更换参数可处理一类问题,而非单一具体任务。 2. **Thin Harness(轻量执行框架)**:作为模型的“手脚”,负责任务循环、文件管理等基础执行功能。其设计应保持轻量,避免因功能过度堆积导致“上下文腐化”。 3. **Resolvers(解析器/路由)**:通过明确的路由规则,将任务类型映射到对应Skill,解决因技能过多而导致的模型调用混乱问题,确保输出稳定。 4. **Latent vs. Deterministic(潜在与确定性)**:需明确分工。LLM擅长判断、综合等非确定性任务;而算术、优化等需稳定输出的工作,则应交给确定性代码处理。 5. **Memory(记忆)**:系统积累知识的基础。可采用Markdown文件夹等形式,记录“当前可信结论”和只增不减的时间线,使经验得以沉淀并可被自动关联与更新。 这些模块共同构成了一种“流程能力”,将经验转化为结构化、参数化的工作流。相比容易被复制的一次性应用,这种深度集成的系统更难被模仿,有望成为个人或组织在AI时代构建长期竞争优势的基础。其本质是将服务产品化,通过编码流程、分离关注点与持续积累记忆,实现更高效、更优质且更具壁垒的产出。

编者按:当 AI Agent 从一次性 Prompt 和 vibe coding,进入更复杂的工作流阶段,真正重要的问题已经不再是「模型能不能完成任务」,而是「能否把 AI 能力沉淀为可复用、可积累的流程资产」。

本文从 Garry Tan 的 GBrain 出发,总结了当前许多人在使用 Codex、Claude Code、Hermes 等 Agent 工具时逐渐收敛出的五种核心形态:可参数化的 Skills、轻量执行框架 Thin Harness、负责路由的 Resolvers、区分模型判断与确定性代码的执行层,以及用于长期积累上下文的 Memory。

这些模块组合在一起,指向的是一种新的「过程能力」:把经验写成流程,把任务抽象成参数,把稳定规则交给代码,把判断和综合交给模型,再通过记忆层持续沉淀。相比一次性生成的应用或提示词,这种系统更难被复制,也更可能成为个人、小团队乃至公司在 AI 时代形成长期竞争优势的基础。

以下为原文:

我花了一些时间研究 Garry Tan 的 GBrain。作为一个非技术背景、也不在风投行业工作的人,我想提炼一下其中我看到的几种通用结构形态,以及它真正有意思的地方。

我认为,很多人正在逐渐收敛到同一组核心结构上。它们大概可以概括为 5 种形态,也代表了 Codex、Claude Code、Hermes、OpenClaw 等智能体式 AI 工具在使用方式上的自然演进方向。

相关阅读:《瘦 Harness,胖 Skill:100 倍 AI 生产力的真正来源》

Skills:从 SOP 到「方法调用」

Skills 几乎是所有人最自然的起点。即便没有人提醒,用户也会下意识去构建它,因为它的形态非常熟悉。我一开始把它理解为一种 SOP,也就是用于完成某件事的标准作业流程。用户提供「要做什么」,Skill 提供「怎么做」。

Tan 的理解是,Skill 更像是一次「方法调用」。在编程里,方法调用指的是用参数来调用某个程序流程。同一段代码每次都会运行,变化的是参数:什么数据、什么问题、什么目标。比如同一个 process_invoice 函数,可以处理系统里的每一张发票,而不只是它最初被写出来时对应的那一张。

Skill 也是类似的结构。一个名为 /investigate 的 Skill 可能包含七个固定步骤,这七个步骤不会变。变化的是参数:TARGET(调查对象是谁或是什么)、QUESTION(你想弄清楚什么)、DATASET(去哪里找信息)。把它指向一个医疗行业举报人案例,它就像一个研究分析师;把它指向 SEC 申报文件,它就像一个法务调查员。同一个文件、同样的七个步骤,差别由外部世界提供。

这和传统 SOP 是不同的。大多数 SOP 都是为某一个具体岗位或任务编写的,比如「处理应付账款」。每个使用场景对应一套流程。而 Skill 的抽象程度更高,同一套流程可以处理一类问题。一个设计良好的 Skill,可以完成几十份 SOP 的工作,因为具体案例的信息被从文档中抽离出来,转移到了参数里。具体到实际使用,有些 Skill 更接近 SOP,有些则更接近方法调用。

Thin Harness:模型是智能,Harness 是手脚

模型,比如 Opus、GPT-5.5 等,是原始智能;Harness,比如 Claude Code、Codex CLI、Hermes、OpenClaw,则是让模型真正「有手脚」的执行框架。它们负责循环执行、读写文件、管理上下文、执行安全约束。其核心代码大约只有 200 行。

Garry 提到,大多数人都会犯的一个错误是不断往 Harness 里塞更多东西,我自己也是这样。我最后积累了 100 个工具定义,以及一堆 MCP 服务器。结果是,上下文窗口被大量当前任务并不需要的工具说明占满。模型开始混淆到底该用哪个工具,延迟上升,准确率下降,最终形成所谓的「上下文腐化」。

Resolvers:用路由表解决上下文腐化

解决上下文腐化的方法,是建立一张路由表。Resolver 的作用是把「刚刚进来的任务类型 X」明确映射到「应该调用 Skill Y」。当你只有 5 个 Skill 时,你不需要 Resolver;但当你有 100 个 Skill 时,各种描述会变得模糊,模型很容易无法在正确时间调用正确的 Skill。Resolver 用明确规则替代了模糊的模式匹配。

Tan 还为文件运行了一套类似 Resolver 的机制:一张独立的路由表,用来决定某个 Skill 的输出应该落到文件系统中的哪个位置。这是同一种「审计—路由」结构,被应用到了另一个问题上。这样一来,输出就会稳定地进入正确文件夹,而不是放到模型临时猜测的位置。

Skillify 是他的另一个配套思路:它是一套质量循环,用来把一次性的 Skill 变成可长期复用的基础设施。Tan 描述的 10 步流程包括:契约定义、在适合的地方使用确定性代码、单元测试、集成测试、LLM-as-judge 评估、Resolver 条目、审计脚本、检查哪些 Skill 没有调用路径,以及端到端冒烟测试。测试标准很简单:如果你必须向模型重复问同一个问题两遍,那就是失败。

Latent vs. Deterministic:判断交给模型,确定性任务交给代码

需要认真区分哪些工作应该交给 LLM,哪些应该交给确定性系统。LLM 擅长判断、综合、模式识别和读懂言外之意;但它不擅长算术、组合优化,也不适合处理任何需要每次给出同一个答案的任务。LLM 本质上是概率性的,当确定性方案可以解决问题时,就不应该用 LLM。

大多数非技术背景的人,往往低估了确定性层的价值。大家的默认反应,是把所有事情都丢给模型。但如果某件事可以用确定性方式完成,那几乎就应该这样做。而且你不需要自己是程序员,因为模型可以替你写代码。真正需要训练的是一种纪律:每次都问自己,这件事能不能用代码稳定、低成本地完成?如果答案是可以,就让模型把那段代码写出来。

Memory:让系统真正可积累

要让系统有用,它必须具备某种形式的记忆。我还不确定最正确的形态是什么,现在很多人也在用不同方式构建:向量嵌入、语义相似度、知识图谱、混合存储等。Tan 的做法和我一样:就是一个 markdown 文件夹。

他的结构是:每个人一页、每家公司一页、每个概念一页。每一页顶部是「当前可信结论」,也就是随着新证据不断重写和更新的综合判断;底部则是一条只追加、不覆盖的时间线。

选择 markdown 会带来几个结果。首先,文件本身就是系统的主记录,而不是某种导出结果。你可以在 VS Code 里打开它、手动编辑它,Agent 会自动读取这些变化。其次,类型化关系,比如 works_at、invested_in、founded、attended、advises,会在每次写入时通过正则表达式自动抽取出来,因此知识图谱可以在不消耗 token 的情况下自行连接。这个具体 schema 很适合他的工作,但对其他人来说,可能需要根据自己的职业和业务场景重新定制。

此外,还有一个信号探测器在后台运行。某个人被提到一次,就会生成一个 stub 页面;如果他在多个来源中被提到三次,就会触发网页信息补全;一次会议结束后,则会运行完整流程。夜间的「dream cycle」会扫描对话、补全过时实体信息,并修复失效引用。基础层是文本,在此之上的所有东西都便宜、可组合。

底层当然还有更多细节,但我认为,这些就是其中最重要的轮廓,而且它们在相当程度上具有普适性。

我自己其实已经搭建了大约一半这样的架构。过去还没有达到必须引入真正 Resolver 的规模,但现在已经到了这个阶段,所以我刚刚做了一轮小重构,让自己的系统变得模型无关,并内置 Resolver。目前我还没有搭建的关键部分,是后台自动运行的信号探测器和夜间 dream cycle,也就是自动信息补全与整理机制,这是我接下来想尝试加入的部分。

我怀疑,不同构建者正在向类似结构收敛,本身就是一个信号:这种形态虽然未必适用于所有人,但总体上大概率是有用的。即便具体实现细节会有重要差异,但这种总体结构,正在被越来越多人独立摸索出来。

我最近一直在问自己的问题是:如何用 AI 建立可持续的竞争优势?

大家都对 vibe-coded 应用和一次性 prompt 很兴奋,这当然非常酷。我自己最开始也是这样玩起来的,并因此入坑。但任何可以通过一次性 prompt 构建出来的东西,它的均衡价格最终都会下降到构建它所需的 token 成本,也就是几美分。

比如有人复制了 MyFitnessPal,用一半价格出售并赚了 100 万美元,这当然很厉害。但很快就会有人再复制它,并以更低价格出售。这个循环会不断继续,直到利润空间被完全压缩。

真正可持续的东西,是某种「流程能力」。用 Hamilton Helmer《7 Powers》的框架来说,上面这套架构隐含的,正是 process power。

《7 Powers》提出,企业之所以能够长期维持高于市场平均水平的利润率,是因为它拥有七种结构性力量之一。任何没有扎根于这些力量的优势,最终都会被竞争侵蚀。

对中小企业和早期公司来说,Helmer 的七种力量中有五种基本是关上的门。规模经济需要规模;网络效应和转换成本可以建立,但需要先积累庞大的用户基础;独占资源通常意味着专利或类似资产,这并不是多数公司能够拥有的东西;品牌则通常需要十年时间积累,无法走捷径。

剩下的两种,是反定位和流程能力。

反定位指的是一种现有巨头无法模仿的商业模式,因为一旦模仿,就会伤害它自己的既有业务。这种机会有时存在,但并不总是可得。

于是,最现实的路径就剩下流程能力。而一个设计良好的 AI 系统,恰恰就是能够生成流程能力的工具。

这和建立高质量 SOP 或自研专有软件,本质上是同一种工作:流程被编码,案例被参数化,底层确定性系统快速且可靠,记忆层则不断承接过去学到的东西。它让「产品化服务」被进一步放大:你能够以更低成本或更高质量提供某种服务或产品,因为整个工作已经被结构化了。

想象一位会计师搭建了这样一套系统。记忆层是一个文件夹,每个客户都有一个 markdown 文件,里面包括当前可信结论,比如实体结构、年度税务立场、正在进行的审计,以及一条时间线,记录会议、决策和发生的变化。

她有一些 Skill,比如 /year-end-review、/quarterly-estimate、/audit-prep。同一套流程可以针对不同客户进行参数化执行。

她还有一个确定性层,包括税表、折旧表、IRS 文件、客户历史税表等。

再加上一套类似日志整理或 dream cycle 的机制。比如系统在夜间自动发现某位合伙人的 K-1 分配在没有策略变化的情况下下降了 40%;或者注意到某个客户的家庭办公室扣除结构,可以迁移到另一个客户身上,结构可以复用,但身份和隐私仍然留在原处。

这样一来,她可以收取少量溢价,每年服务更多客户,而竞争对手很难复制,因为这套结构并不是等她成功后才凭空出现的,而是从一开始就在持续积累。

从表面看,这个工具只是一个 markdown 文件夹。但每个文件里的每一行,背后都来自大量有意识的测试、搭建和迭代。真正形成竞争壁垒的,不是文件本身,而是这些文件所承载的流程能力。

相關問答

Q根据文章,什么是当前AI Agent使用方式上自然演进形成的五种核心形态?

A文章中总结的AI Agent五种核心形态包括:可参数化的Skills、轻量执行框架Thin Harness、负责任务和文件路由的Resolvers、区分模型判断与确定性代码的执行层(Latent vs. Deterministic),以及用于长期积累上下文的Memory(记忆)。

Q文章将Skill与传统SOP(标准作业流程)进行了区分,它们之间最主要的区别是什么?

A传统SOP是为具体岗位或任务(如“处理应付账款”)编写的,每个场景对应一套固定流程。而Skill的抽象程度更高,它更像是编程中的“方法调用”,其内部步骤(流程)是固定的,但通过外部参数(如目标、问题、数据集)来适应处理一类问题。同一个设计良好的Skill可以替代多份SOP,具体信息从文档中抽离为参数。

Q作者提到的“上下文腐化”问题是如何产生的?以及Resolver是如何解决这个问题的?

A“上下文腐化”问题产生于使用者不断向执行框架(Harness)中添加大量工具和功能描述,导致上下文窗口被大量与当前任务无关的信息占满,模型因此混淆工具调用、延迟上升、准确率下降。Resolver通过建立一张明确的路由表来解决这个问题,它将“任务类型X”明确映射到“应该调用Skill Y”,用清晰的规则替代了模糊的模式匹配,确保在技能繁多时也能准确调用。

Q在构建AI系统时,为什么需要区分“Latent(潜在/概率性)”任务和“Deterministic(确定性)”任务?

A需要区分这两类任务是因为大型语言模型(LLM)和确定性系统各有所长。LLM擅长判断、综合、模式识别和理解言外之意等概率性任务。但对于算术、组合优化以及任何需要每次给出完全相同答案的确定性任务,使用确定性代码或系统会更加稳定、可靠且成本更低。构建系统时应遵循一个纪律:如果某件事能用代码稳定、低成本地完成,就应该让模型生成那段确定性代码来处理,而不是把所有事情都丢给概率性的LLM。

Q文章最后将设计良好的AI系统所隐含的竞争优势,与Hamilton Helmer的《7 Powers》理论中的哪种力量联系起来?这种力量是如何通过AI系统体现的?

A文章将这种竞争优势与《7 Powers》理论中的“流程能力(Process Power)”联系起来。一个设计良好的AI系统通过将经验编码为流程(Skills)、将任务抽象为参数、把稳定规则交给确定性代码、把判断交给模型,并通过记忆层(Memory)持续沉淀知识,从而形成一种结构化、可复用、可积累的“流程能力”。这种能力使得个人或公司能够以更低成本或更高质量提供服务,并且由于这种能力是在长期实践中持续迭代和积累起来的,竞争对手难以简单复制,从而构成了可持续的竞争优势。文章以会计师的例子说明了这种能力的具体体现。

你可能也喜歡

农场走出的创业者:造完飞行汽车,又在机器人赛道赌出390亿美元巨头

人形机器人公司Figure AI近期因其“人机分拣挑战”和家用机器人宣传片引发全球关注。成立仅三年,其估值在新一轮融资后飙升至390亿美元,投资方包括英伟达、英特尔资本等顶级机构。背后的创始人Brett Adcock是一位从伊利诺伊州农场走出的连续创业者。 Adcock的创业经历跨度极大:先是在2012年联合创立招聘平台Vettery,于2018年以1.1亿美元出售;随后在2018年创办电动垂直起降飞行器公司Archer Aviation,推动其在2021年上市。离开Archer后,他于2022年创立Figure AI,切入通用人形机器人领域。 Adcock的创业逻辑一以贯之:选择巨大、低效且处于技术拐点的市场,用资本和工程能力推动变革。在Figure,他目标是打造能进入人类环境、使用工具、完成多种任务的通用机器人,以应对劳动力短缺和自动化需求。 然而,高估值背后是商业化进程、技术路线和安全性的质疑。Figure曾与OpenAI合作开发机器人AI模型,但不到一年便终止合作,转而自主研发。Adcock表示,机器人AI需要不同于聊天模型的技术路径,且当OpenAI有意自研机器人时,合作已无意义。 从软件招聘、飞行汽车到人形机器人,Adcock的创业路径不断迈向更重资产、更复杂的领域。如今,他站在AI机器人浪潮的中心,无论成败,其名已刻入行业发展史。

marsbit17 分鐘前

农场走出的创业者:造完飞行汽车,又在机器人赛道赌出390亿美元巨头

marsbit17 分鐘前

如何用30天成为Claude高阶用户?

本文提供了一个为期30天的Claude进阶使用教程,旨在帮助用户将Claude从一个临时的问答工具,转变为能够理解用户、持续产出高效成果的智能工作助手。教程按周划分,逐步构建个人专属的工作系统。 **第一周:掌握基础能力** 核心是学习撰写结构清晰的Prompt,包含角色、背景、任务、格式和限制条件五个部分。理解上下文窗口的概念,将关键信息前置。最后,设置至少三个专项Projects(如主要工作、研究分析、写作沟通)并开启Memory功能,让Claude记住用户的背景与偏好,奠定个性化基础。 **第二周:搭建核心工作流** 创建可复用的流程模板,覆盖研究、写作和决策三大常见场景。例如,研究流程可快速分析资料并生成报告;写作采用先提纲后全文的两步法,确保方向正确;决策流程则能系统化地分析选项与利弊。这些工作流能将重复性工作自动化,显著提升效率。 **第三周:实现自主与自动化** 通过Claude Cowork功能,让Claude能在指定文件夹内自主读取、处理文件和执行多步骤任务。连接Google Drive、Slack等外部工具,扩展其能力。设置定时自动化任务(如每日计划生成、周报整理),使Claude从被动工具转变为能主动工作的系统。 **第四周:系统优化与积累** 回顾并优化所有工作流,根据输出反馈迭代Prompt,追求稳定高质量。建立个人知识库,保存历史优质产出供后续项目调用,实现知识复利。通过教会他人来巩固自身理解。最终,规划完整的个人Claude操作系统蓝图,明确所需工作流、工具连接和使用节奏,并定期迭代。 遵循此路径,用户能在30天内构建一个深度理解自身需求、能自主运行并持续优化的工作系统,从而将时间专注于更具创造性和战略性的任务上,真正成为Claude的高阶用户。

marsbit59 分鐘前

如何用30天成为Claude高阶用户?

marsbit59 分鐘前

交易

現貨
合約

熱門文章

如何購買CORE

歡迎來到HTX.com!在這裡,購買Core DAO (CORE)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Core DAO (CORE)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Core DAO (CORE)購買Core DAO (CORE)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Core DAO (CORE)在HTX的現貨市場輕鬆交易Core DAO (CORE)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

445 人學過發佈於 2024.12.13更新於 2025.03.21

如何購買CORE

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 CORE (CORE)幣價的意見。

活动图片