Agent已进入Harness驱动时代

marsbit發佈於 2026-04-15更新於 2026-04-15

文章摘要

近日,Anthropic公司意外泄露了其AI编程工具Claude Code的源代码,总量超过51.2万行。虽然未包含颠覆性算法,但完整展示了其Agent工程实践的核心架构——Harness系统。Harness可理解为驱动模型的整套工程架构,其核心作用在于最大化模型能力,而不仅是输出文本。 Claude Code的Harness系统包含六大核心组件:多层级系统提示(System Prompt)、工具规范(Tool Schema)、工具调用循环(Tool Call Loop)、上下文管理器(Context Manager)、子智能体(Sub Agent)和验证钩子(Verification Hooks)。这些组件共同实现了模型行为的精准控制、工具调用与执行的一体化、上下文高效管理、多智能体协同及结果客观验证。 Harness架构将训练与推理环境深度融合,推动后训练(Post-training)朝六大方向发展:系统提示驱动行为对齐、长链路工具调用端到端训练、规划与执行一体化训练、记忆压缩专项训练、子智能体协同编排训练,以及多目标联合强化学习。 这一转变意味着行业需求正从纯模型能力转向工程架构与系统整合。复合型人才(兼具AI、工程与架构能力)将更受青睐,而“模型外壳公司”生存空间收窄,必须依靠顶尖基础设施或垂直领域壁垒。Agent落地更强调私有化、高安全与端到端一体化,企业应优先复用成熟Harness设计,结合场景做定制,以实现真正规模化应用。

文 | 霞光AI实验室

近日,AI技术圈一个热议的话题是,Anthropic公司意外暴露了旗下AI编程工具Claude Code的完整源代码,代码数量超过51.2万行。这些泄露的代码虽未展示了颠覆性新算法,却完整暴露了头部厂商的Agent工程实践。

4月10日,Pokee.ai创始人朱哲清做客由锦秋基金发起的“Deep Talk with Builders”的线上闭门,分享了“从Claude Code的泄漏看Harness Engineering和当下Post-training”的话题。

他认为,Anthropic这套架构高度适配Claude模型,而直接迁移到其他模型效果会显著下降,但其Harness设计思想、组件化结构、与后训练(Post-training)深度绑定的思路,对自研Agent具有极强的借鉴价值。

过去三年,大模型从单纯API能力,进化为产品核心模块;行业也从“模型外壳公司”,走向Harness驱动的复杂Agent系统——模型不再是唯一核心,工具调用、执行环境、上下文管理、验证机制共同决定最终效果。

Harness是什么?它直译是马具,缰绳。如果说大模型是一匹蓄势待发的烈马,Harness就是人类牵引、驾驭这匹烈马的缰绳。随着人工智能正式进入Harness驱动的时代,对于使用者来说,真正稀缺的能力,不在模型里面,在模型外面——如何找到一副趁手的缰绳,以及驾驶者心中清晰准确的目的地。

本文基于朱哲清的分享内容,经AI总结梳理,并人工校对,力求呈现这次分享的精华内容。

Harness可理解为驱动模型的整套工程架构,它的核心作用是把模型能力最大化,而非单纯输出tokens。Claude Code的Harness清晰拆解为六大核心组件:

1. 多层级System Prompt(系统提示)

现代System Prompt已远不止“你是一个有用的助手”,而是超大规模、分层、可缓存的复杂指令集:

  • 固定缓存部分:包含Agent身份、Co指令、工具定义、语气规范、安全策略,大小可达十几万token,任何改动都会失效缓存、大幅增加成本与耗时;

  • 动态可替换部分:会话状态、当前时间、可读取文件、代码包依赖等,随任务灵活切换;

  • 工程实践:通过A/B test对不同用户微调Prompt,精准优化任务完成率、降低错误率。

对比来看,Claude Code的架构更简洁,模型注意力负担更低、幻觉更少;而OpenAI相关架构更复杂,需读取大量文件,易引发记忆幻觉。

2. Tool Schema(工具规范)

工具定义直接决定调用准确率,核心设计要点:

  • 内置核心工具:文件读写/编辑、Bash、Web批处理等基础工具在模型训练阶段就完成适配,推理时无需额外提供工具描述;

  • 权限与安全:企业级场景拒绝第三方无权限校验的工具,避免恶意操作;

  • 并行工具调用:可提升执行速度,但后训练难度极高——并行调用无先后依赖,训练时易出现时序错位,Reward信号难以对齐。

3. Tool Call Loop(工具调用循环)

这是Harness最核心部分,也是训练与推理一体化的关键:

  • 规划模式(Plan Mode):长链路任务先理解任务、梳理文件系统、明确可用工具,生成执行方案,再进入执行;避免盲目试错(如反复调用不可用搜索引擎)、减少无效token消耗;

  • 执行模式(Execute Mode):在沙盒(Sandbox)中按规划执行工具,获取结果闭环;

  • 核心价值:消除长链路执行中的中间错误,降低重试成本,但也让规划能力的训练更难——规划好坏的Reward信号易被执行环节噪声干扰。

4. Context Manager(上下文管理器)

解决百万级token上下文的高效利用问题:

  • 采用指针索引式Memory:不直接存储完整内容,仅记录文件指针与主题标签;

  • 后台自动合并、去重、关联文件;

  • 现状:仍处于启发式阶段,无法完美解决多文件跨链路推理问题(如关联文件被遗漏),暂无端到端最优解。

5. Sub Agent(子智能体)

主流多智能体协作缺乏理论保障:无共享目标、无通用训练算法,只能“各自训练、随缘配合”。

主-子Agent架构本质是分层强化学习:

  • 主Agent为子Agent定义子任务(Option),子任务终结状态作为主Agent下一步起点;

  • 共享KV Cache与输入上下文,子Agent执行后仅追加结果,不额外增加token消耗,成本远低于串行执行;

  • 典型落地:字节ContextFormer等工作思路与此高度一致。

6. Verification Hooks(验证钩子)

解决模型“自我美化、虚报完成”的问题:

  • 强模型存在自我偏好,自评准确率远高于互评,易主动“说谎”而非单纯幻觉;

  • 工程方案:引入后台分类器,只看工具执行结果、忽略模型生成文本,脱离生成偏差做客观校验;

  • 作用:无需完全可验证的Reward,即可实现轻量化、优雅的执行结果校验。

传统RL(强化学习)训练环境与推理环境严重割裂,而Harness实现了训练-生产环境的一体化:工具调用序列=轨迹步,测试运行与分类闸门=Reward信号,用户任务=完整Episode。

围绕上述六大组件,Post-training(后训练)形成六大核心方向:

1. System Prompt(系统提示词)驱动行为对齐

System Prompt 会明确任务目标、Token 预算与可用工具策略,从而大幅约束模型的行为空间,让强化学习只需在限定范围内学习最优执行模式。我们可以基于 System Prompt 中的规则设计评分体系,让模型在更干净、更少分支的轨迹下进行近似端到端训练,稳定输出符合预期的行为。

2. 长链路工具调用端到端训练

抛弃传统“单步快照式训练”,改为完整轨迹训练:

  • 记录每一步执行结果,获取过程Reward与最终任务Reward;

  • 聚焦长链路稳定性,保证几百步工具调用的整体准确率,而非仅单步调用正确。

3. Plan-Execute一体化训练

Harness消除规划与执行间的噪声:

  • 预先锁定规划中的工具链路,无额外人工干预层;

  • 执行结果由分类闸门客观校验,规划的Reward信号更清晰;

  • 实现规划能力可训练,避免“只执行、不规划”的粗放模式。

4. Memory Compression专项训练

将上下文压缩作为独立任务:上游模型输出压缩记忆,下游任务执行效果作为校验标准;目标是保留核心信息,不影响下游任务成功率。

5. 子Agent协同编排训练

针对超长输出(代码/文档百万token场景):

  • 主Agent不直接生成内容,而是编排子Agent,分配任务与Prompt;

  • 子Agent并行执行后合并结果,主Agent做校验;

  • 依赖Harness实现底层进程控制,避免读写冲突与执行失败。

6. 多目标联合强化学习

现代RL pipeline大幅延长,需同时优化六大模块:

  • 工具调用无幻觉、分类校验准确、上下文压缩有效、多Agent无掣肘、规划合理、验证可信;

  • 行业从算法收敛走向百花齐放,各环节需专属训练算法,多目标融合成为核心难题。

首先是人才需求的转变。Prompt Engineering已不再是独立核心,做好Harness可完成70%工作。因此,兼具AI理解、后端工程、基础设施能力的复合型人才将会更受欢迎,而纯Prompt工程师竞争力则会大幅下降。

其次是市场格局的重构。在模型厂商与垂直领域企业挤压下,中间“模型外壳公司”,仅剩两条可行路径,要么拥有顶尖模型与基础设施能力,要么在垂直领域独有数据/经验壁垒(如高频交易、行业专属知识)。

第三,真正的Agent落地正走向私有化、高安全、端到端一体化。对于企业来说,优先复用成熟Harness设计,结合垂直场景做定制化,聚焦安全与私有化落地,才能实现Agent真正规模化商用。

Claude Code泄露的核心价值,不在于代码本身,而在于揭示了Agent已进入Harness驱动时代。模型能力只是基础,工程架构、执行环境、多智能体协同、验证机制才是决定上限的关键。

相關問答

Q什么是Harness,它在AI Agent中扮演什么角色?

AHarness直译为马具或缰绳,在AI Agent中指驱动模型的整套工程架构。它的核心作用是将模型能力最大化,而不仅仅是输出tokens。Harness包括工具调用、执行环境、上下文管理、验证机制等组件,共同决定Agent的最终效果,帮助人类更好地驾驭AI模型。

QClaude Code的Harness包含哪六大核心组件?

AClaude Code的Harness包含六大核心组件:1. 多层级System Prompt(系统提示),2. Tool Schema(工具规范),3. Tool Call Loop(工具调用循环),4. Context Manager(上下文管理器),5. Sub Agent(子智能体),6. Verification Hooks(验证钩子)。

QHarness如何实现训练与生产环境的一体化?

AHarness通过将工具调用序列视为轨迹步,测试运行与分类闸门作为Reward信号,用户任务作为完整Episode,实现了训练与生产环境的一体化。这使得强化学习可以在与推理环境高度一致的情况下进行,避免了传统RL中训练与推理环境割裂的问题。

Q后训练(Post-training)围绕Harness形成的六大核心方向是什么?

A后训练围绕Harness形成的六大核心方向包括:1. System Prompt驱动行为对齐,2. 长链路工具调用端到端训练,3. Plan-Execute一体化训练,4. Memory Compression专项训练,5. 子Agent协同编排训练,6. 多目标联合强化学习。

QAgent进入Harness驱动时代对人才需求和市场格局有何影响?

AAgent进入Harness驱动时代导致人才需求从纯Prompt工程师转向兼具AI理解、后端工程和基础设施能力的复合型人才。市场格局上,中间'模型外壳公司'面临挤压,只有拥有顶尖模型与基础设施能力或在垂直领域有独有数据/经验壁垒的企业才能生存,真正的Agent落地更倾向于私有化、高安全和端到端一体化。

你可能也喜歡

Cyber Capital CIO称以太坊已失败,称V神为'独裁者'——归咎于'致命组合'

欧洲最古老的加密货币投资基金之一Cyber Capital的首席投资官Justin Bons在社交媒体上发文,严厉批评以太坊及其联合创始人Vitalik Buterin。Bons认为,以太坊目前的治理和扩展路线存在“致命组合”,即中心化控制与整体“功能失调”并存。他指责Vitalik Buterin像“独裁者”一样主导以太坊发展,导致ETH在采用率和费用收入上节节败退。 Bons特别指出,以太坊的Layer 2扩展路线图并未带来应有的市场竞争力,网络容量增加但速度未显著提升,使其在高价值应用场景中“毫无竞争力”。他批评ZK-EVM路线图将是下一个“重大失误”,认为其开发周期长、收效低,且因欺诈证明计算时间导致区块时间缓慢,永久性地限制了链的线性扩展能力,并带来了构建者中心化等权衡问题。 针对以太坊以去中心化优先的常见反驳,Bons认为去中心化并非无成本,网络效用降低反而会威胁其长期去中心化与安全。他声称竞争对手可以在更快、更便宜、更去中心化的同时,保持稀缺性和安全性。因此,以太坊的叙事空间正不断收窄,可能沦为“投机性的 meme 崇拜动态”。 Bons列举了Solana (SOL)、Hyperliquid (HYPE) 和 NEAR 等作为替代选择,认为它们在费用、使用率和去中心化程度上更具优势。他也提到卡尔达诺 (ADA),称其当前比以太坊更去中心化。 最后,Bons断言以太坊已“失败”,内部变革机制已被掌控,领导层“比以往更极端”,反对声音被排挤,因此“没有希望”纠正方向。发文时,ETH价格已跌破2000美元关键支撑,月度跌幅达15%,较历史高点下跌约60%。

bitcoinist21 分鐘前

Cyber Capital CIO称以太坊已失败,称V神为'独裁者'——归咎于'致命组合'

bitcoinist21 分鐘前

交易反思:为什么炒币越久越难受?其实你的大脑已经被压力“搞坏”了

交易反思:为什么炒币越久越难受?其实你的大脑已经被压力“搞坏”了 作者指出,交易到最后比拼的并非智力,而是神经系统的生存能力。交易者的个人背景、财务状况和心理状态都会深刻影响其决策,而交易心理学却常被忽视。许多人在亏损时承受着巨大的精神压力,包括失眠、情绪崩溃和绝望感。 交易起初源于改变人生的希望,但很快会进入一个恶性循环:小幅盈亏、犯错、错失机会,进而产生对错失的恐惧。这种恐惧转化为冲动交易、频繁操作和耐心丧失,最终导致持续亏损。当亏损达到一定程度,交易就演变成一场心理求生战。 关键在于,交易在很大程度上是生理化学反应。持续的高压状态会导致皮质醇水平长期升高,使大脑处于“生存模式”,进而损害睡眠、引发情绪化决策、消磨耐心。多巴胺偶尔带来的盈利快感,会让大脑将痛苦与奖赏错误关联,使交易者沉迷其中无法自拔。 最终,交易者可能对亏损麻木,将焦虑内化为性格,交易目的从盈利扭曲为寻求刺激或自我安慰。此时,交易已沦为一种成瘾行为。 文章强调,有时最强大的举措是暂停交易,给自己足够时间反思:是热爱交易,还是被困在由压力和多巴胺构筑的牢笼里?市场永远存在新机会,但若在追逐中耗尽心力,当真正机会来临时已无力参与。顶尖交易者未必最聪明,而是那些能在精神上持久坚持的人。真正的顿悟或许是:你所追逐的并非金钱,而是内心的解脱。

marsbit46 分鐘前

交易反思:为什么炒币越久越难受?其实你的大脑已经被压力“搞坏”了

marsbit46 分鐘前

给宇树甩了两张工牌

英伟达在台北发布了人形机器人Isaac GR00T参考设计,由宇树科技提供身体、Sharpa提供灵巧手、英伟达提供Jetson Thor芯片及全套软件栈。这套“交钥匙”方案旨在服务高校及研究人员,可将实验准备时间从几天缩短到几小时,其合成数据生成能力极强。同日,宇树科技A股首发过会,估值420亿,但其募资的最大投向是自研具身大模型(大脑)。 文章指出,英伟达的参考设计模式与当年高通在手机行业的“交钥匙”方案类似,可能通过开源模型和软件来锁定其硬件生态,从而掌握行业规则制定权,将利润集中于“大脑”环节。宇树科技虽为参考设计供应身体,却同时大力投资自研大脑,并已在其G1机器人上同时运行英伟达GR00T、自研UnifoLM及第三方中科第五纪模型,这被视作一场“穿着合作外衣的独立战争”。 目前,仅特斯拉凭借其FSD数据飞轮、自研芯片和超级制造体系,在机器人领域实现了完全脱离英伟达的闭环。文章认为,机器人的身体(运动控制、灵巧操作等)目前仍有较高的技术门槛和差异化空间,未像手机硬件那样完全同质化。宇树押注自研大脑,是在与时间赛跑,窗口期可能只有两三年。若其自研大脑成功,则能掌握主动权;若失败,则可能面临被标准化方案锁定在低利润“身体制造商”位置的风险。

marsbit50 分鐘前

给宇树甩了两张工牌

marsbit50 分鐘前

交易

現貨
合約

熱門文章

如何購買ERA

歡迎來到HTX.com!在這裡,購買Caldera (ERA)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Caldera (ERA)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Caldera (ERA)購買Caldera (ERA)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Caldera (ERA)在HTX的現貨市場輕鬆交易Caldera (ERA)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

684 人學過發佈於 2025.07.17更新於 2026.06.02

如何購買ERA

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 ERA (ERA)幣價的意見。

活动图片