Codex goal模式使用指南:如何让AI持续推进一个具体目标

marsbit发布于2026-06-06更新于2026-06-06

文章摘要

OpenAI推出的Codex目标模式(/goal)允许AI围绕一个具体目标持续工作数小时甚至数天,直至任务完成。其核心在于设定清晰、可验证的退出标准(如“部署时间降低30%”),而非冗长的需求描述。用户需提供足够的方向、工具和真实环境,让Codex能衡量进展并验证结果。文章强调,应避免让AI陷入视觉细节等模糊任务,建议将目标拆解为可评估的功能清单或指标。对于长期任务,需通过提交代码、更新文档或发送进度通知等方式跟踪进展。任务完成后,建议让AI审查并清理尝试过程中遗留的无效改动。总之,目标模式标志着AI从响应指令的助手,转变为需要被定义目标、配置环境并管理进度的工程执行者。

编者按:这篇文章来自 OpenAI 开发者关系成员 Dominik Kundel,对 Codex「goal mode / /goal」功能的使用经验进行总结。它讨论的并不是一个普通 prompt 技巧,而是 AI 编程工具正在发生的一次角色变化:Codex 不再只是响应单轮指令的代码助手,而开始成为一个可以围绕明确目标持续推进的执行型 Agent。

在 /goal 模式下,真正重要的不是把需求写得越长越细,而是为 Codex 设定清晰、可验证的退出标准。比如「部署时间降低 30%」「测试覆盖达到 100% parity」「LCP 降到 2.5 秒以下」。这些指标让 Codex 能够判断任务是否完成,也避免它在模糊目标中无限试错。与此同时,用户还需要提供足够的方向、工具和真实环境,让 Codex 能衡量进展、验证结果,而不是只在本地或假设条件下完成一个看似可行的方案。

文章尤其提醒,视觉类任务最容易让 Codex 陷入细节泥潭。与其要求「100% 像素级还原」,不如将视觉目标拆解为功能清单、设计系统规范和可评估指标。对于持续数小时甚至数天的长期任务,也需要通过 commit、draft PR、进度文档、Slack 更新或 side chat 等方式持续跟踪,避免最终只得到一堆不可追溯的改动。

这篇文章的信息增量在于,它把 /goal 重新定义为一种「长期任务管理机制」。当 AI 可以连续执行几十甚至上百小时,开发者的核心能力也随之变化:不只是让 AI 生成代码,而是为它定义目标、建立度量体系、配置执行环境,并在最后完成审查和复盘。换句话说,AI 编程正在从「写提示词」走向「管理一个持续工作的工程执行者」。

以下为原文:

我们推出了目标模式(goal mode,或 /goal),是为了帮助你让 Codex 朝着一个具体结果持续推进。当你设定一个目标后,Codex 会一直工作,直到目标达成——无论这需要几个小时,还是几天。已经有人让 Codex 为同一个目标连续工作超过 120 小时。

目标模式非常强大。想要最大化发挥它的作用,使用 /goal 时有 7 件事值得注意。

设定清晰、可验证的标准

当你激活目标模式时输入的提示词,既可以作为初始提示,更重要的是,它会成为这个目标的退出标准。Codex 会在每一轮工作之后检查:这个目标是否已经完成。

因此,你的目标提示不应该写得过长,而应该聚焦于一个清晰标准:什么情况下,才算这个目标已经达成。

多数情况下,一个好的目标最好包含一个明确的数字指标,供模型判断是否完成。例如:

「将构建和部署时间减少 30%。」

「把这个功能从 TypeScript 迁移到 Rust,并达到 100% 的测试一致性。」

「优化应用脚手架,使生产环境中的最大内容绘制(Largest Contentful Paint,衡量页面主要内容加载速度的指标)低于 2.5 秒。」

这个提示不一定总要包含数字,但通常来说,数字会让后续步骤更容易推进。

如果你还不确定该如何定义目标,或者想先和 Codex 一起头脑风暴这个项目,也不必一开始就用目标模式开启对话。

Codex 可以自行设定目标。你可以先正常开启一段对话,等你准备好让 Codex 开始执行时,再让 Codex 根据前面的讨论内容设定目标。

你也可以随时编辑目标:在 Codex 应用中点击编辑按钮,或在 CLI 中再次使用 /goal。

尽可能提供指引

像「将构建和部署时间减少 30%」这样的提示,听起来很酷,也可能让 Codex 找到一些创造性的解决方案。但如果你已经大致知道问题可能出在哪里,这种提示也可能让 Codex 走上弯路。

所以,在可能的情况下,最好告诉 Codex 应该从哪里开始排查、可以使用哪些工具来完成目标,或者给出其他提示,避免它钻进错误方向。

例如,我的同事 @reach_vb 在一次实验中就这样做了:他告诉 Codex,可以使用 Chrome 浏览器进入 Google Colab,并说明了一些可接受的限制条件,比如在让 Codex 训练模型时,可以让它自己生成数据集。

同样,如果你想缩短构建时间,并且已经知道大部分时间消耗在哪个环节,最好在提示词中先把 Codex 指向那个区域。

另一种做法是,你可以先让 Codex 在计划模式(plan mode)下做一些初步研究,并让它创建一个计划文件,用来记录潜在方案。随后,再让你的目标引用这份计划。

让进展可衡量

如果你的目标很有野心,或者 Codex 有很多种方式可以逐步接近目标,那么很重要的一点是:你要给 Codex 提供衡量进展的工具。

对于某些任务来说,这一点可能天然成立。比如优化构建时间、提高测试覆盖率,因为 Codex 通常已经能使用相关工具,或者会自然地创建这些工具。

但对于其他目标,你最好先和 Codex 一起头脑风暴:哪些工具有助于判断进展?或者给它一些提示,让它知道该如何确认自己是否正在向目标靠近。例如,为两个截图创建视觉差异比对工具,或者为你正在调试的智能体创建一套评估集。

我曾让 Codex 根据一段视频复刻一些组件,当时 Codex 为自己创建了一个工具,用来比较截图并检查差异。后来,它还持续迭代这个工具,加入了不同的差异比对模式。

根据任务不同,你还需要考虑是否有一些额外标准需要被测量或检查。否则,Codex 可能会以为任务已经完成,但在你看来其实还不完整。

比如,Codex 可能为了「像素级还原」某个 UI,直接裁剪设计参考图并内嵌到页面里;或者为了让测试通过率达到 100%,反过来削减测试覆盖范围。这些都不是你真正想要的完成方式。

创建一个真实的环境

如果你希望 Codex 真正朝目标取得有效进展,它就需要在一个足够真实的环境中运行。

在实践中,这意味着:如果你想优化部署时间或延迟问题,Codex 应该能访问部署和测试环境,而且这些环境要尽可能模拟生产环境。也就是使用相同的技术栈、相同的配置开关,以及类似的数据库。

举个例子,我们曾经在调试 developers.openai.com 的构建和部署时间优化。当时我们已经在使用部署预览,因此 Codex 可以利用这些预览环境进行部署,并查看相关日志。但问题在于,我们的预览部署和完整生产环境相比,禁用了一些构建路径。

因此,Codex 最后不得不进行手动部署,把代码部署到与生产配置更接近的环境中,才能真正检查问题所在。

类似地,你也可以让 Codex 使用 computer use(让模型操作真实应用界面的能力)来测试实际应用。为了优化 iOS 上的一些性能问题,@dimillian 甚至使用了实体设备,以获得最准确的测试环境。

谨慎设定视觉目标

给 Codex 一个视觉目标,比如「根据这张图片 100% 像素级还原这个 UI」,确实很诱人。但根据具体设置不同,这也可能带来麻烦。

如果你没有给出合适的指引和约束,Codex 可能会在某些细节上越陷越深,反而忽略整体目标。比如,如果参考图中包含一些图形元素,而你期待 Codex 生成这些元素——无论是 SVG 图标还是图片——它可能会把大量精力耗在「如何精确复刻这些素材」上,而不是正确拆解整个问题。

此外,Codex 需要工具才能正确进行视觉比较。这意味着更多图片输入、更高的整体 token 消耗,但并不一定能给 Codex 提供一种简单方式,让它识别真正有价值的改进机会。

所以,图片通常更适合作为目标上下文,而不是唯一的完成标准。你应该寻找其他方式,让 Codex 判断目标是否已经达成,例如功能清单、实现规范、是否符合设计系统等。

跟踪进展

如果 Codex 最终在后台工作数小时甚至数天,甚至是在另一台机器上运行,你很容易忘记它到底推进到哪里、已经做了哪些工作。

根据不同目标,我发现下面几种方式很有帮助:

·让 Codex 在关键节点提交代码,并推送到一个草稿 PR。尤其是当你在做网站,并且有预览部署时,这会非常有用。

·让 Codex 更新一份面向管理层的交付物。它可以是一个 HTML 文件,你可以在应用内浏览器里一直打开;也可以是·一个通过 Sites 部署给团队查看的页面;可以是一张渲染后的进度图,也可以只是一份普通的 Markdown 文件。

指示 Codex 主动发布进展更新。你也可以把这写进目标里:让 Codex 在取得重要进展时,把更新发送到 Slack 频道,或者你希望记录进展的其他地方。

使用其他聊天窗口询问状态。如果你只是想快速了解当前状态,可以运行 /side 启动一个新的侧边聊天,并在那里提问。因为它会从当前线程分叉出来,所以拥有截至目前的全部上下文,但生命周期很短。

在 Codex 应用中的另一个替代方法是:开启一个普通新聊天,让 Codex 阅读另一个目标线程,并回答你的问题。如果你让 Codex 设置一个自动化任务,定期检查进展,这种方式会尤其强大。

清理并最终确认结果

太好了,目标终于完成了!现在是不是就可以直接把成果甩给团队,然后收工?

通常来说,尤其是在优化类任务中,我发现让 Codex 回顾并审查自己完成的工作会很有帮助。你可以先用 /review 运行一次本地代码审查,但也值得让 Codex 更深入地反思:它为达成目标尝试过哪些路径?哪些尝试有效?哪些尝试无效?然后据此清理代码。

因为 Codex 会一直工作,直到达到目标,所以它可能尝试过一些效果不够好、甚至完全无效的方法,而这些残留改动可能还留在最终代码中。

给你的下一个任务也设一个 goal

Codex 的目标功能是一个极其强大的工具,可以帮助你解决一些最有意义的工程挑战。但只有当你提供了正确的环境和指令,它才能更高效地抵达目标。

你用 /goal 做过什么?

相关问答

Q什么是Codex的目标模式(/goal),它的核心目的是什么?

A目标模式(goal mode,或 /goal)是OpenAI Codex的一项功能,其核心目的是让AI能够围绕一个明确、具体的目标持续工作,直到目标达成为止。它不再只是一个响应单轮指令的代码助手,而是转变为一个可以自主推进、执行任务的执行型代理。用户可以为同一个目标设定长达数小时甚至数天的连续任务。

Q在设定/goal目标时,提示词最重要的原则是什么?一个好的目标提示通常包含什么?

A提示词最重要的原则是设定清晰、可验证的退出标准。真正重要的不是把需求写得很长很细,而是要定义在什么情况下才算任务完成。一个好的目标提示通常包含一个明确的数字指标,例如“将构建和部署时间减少30%”或“测试覆盖率达到100%”,以便Codex能够客观地判断进度并决定何时停止。

Q为了最大化/goal模式的效果,用户需要为Codex提供哪三方面的支持?

A用户需要为Codex提供三方面的支持:1. **提供方向指引**:告知可能的问题排查方向、可用的工具或约束条件,避免AI走弯路。2. **创建真实的环境**:让AI能在接近生产环境的条件下运行、测试和验证结果,而不仅是本地假设。3. **建立衡量进展的体系**:提供或让AI创建必要的工具来量化进展(如性能测试工具、视觉差异比对工具),确保它能判断是否在向目标靠近。

Q文章指出,哪种类型的任务最容易让Codex陷入困境?应该如何改进对这类目标的设定?

A视觉类任务最容易让Codex陷入细节泥潭,例如要求“100%像素级还原UI”。这可能导致AI过度纠结于复刻图形素材等细节。改进方法是:避免将图片作为唯一的完成标准,而是将视觉目标拆解为功能清单、设计系统规范或可评估的性能指标(如加载速度),为AI提供更清晰、可验证的非视觉化完成标准。

Q当Codex为一个目标长时间工作时,有哪些有效的方法来跟踪其进展和状态?

A有几种有效的方法可以跟踪进展:1. **代码提交与草稿PR**:让Codex在关键节点提交代码并推送到草稿PR,便于审查和预览。2. **更新进度文档**:让AI更新一个HTML、Markdown文件或部署一个进度页面供团队查看。3. **主动通知**:在目标中指示Codex将重要进展发送到Slack等协作平台。4. **使用侧边聊天(/side)**:开启一个新的侧边聊天,基于当前上下文快速询问状态。5. **让另一个Codex实例审查**:开启新聊天,让另一个Codex阅读目标线程并汇报进度。

你可能也喜欢

我用了一年,才看清 Agent 支付扎心的真相

我用了一年时间深入研究Agent支付领域,发现当前市场存在诸多扎心现实。总体来看,真正的、大规模的需求尚未形成,初创公司面临结构性问题。 首先,在Agent对商户的“代购式商业”方面,用户体验存在根本缺陷。对于需要视觉比价的大多数商品(如服装、电子产品),纯文本对话界面远不如传统电商界面直观高效。虽然AI在理解需求和比价指令上表现不错,但无法替代并排浏览、挑选的体验。商户目前接入主要是出于“防御性”的“Agent引擎优化”考虑,担心未来落后,而非当前有实际客流。外卖等高频低决策场景有潜力,但受限于平台未开放API和过高的推理成本。另一个突破口是帮助用户处理复杂、体验差的购物流程(如叠加优惠、非母语操作),但这需要强大的B2C分发渠道,而这是巨头的优势。 其次,在Agent对API(机器间调用服务)方面,虽然存在机器间支付场景,但当前开发者大多已通过预付额度等方式解决小额支付问题。更深层矛盾在于,主流SaaS供应商的商业模式依赖大额企业合同,不愿支持极小额、临时性的API访问。新兴协议更适合服务长尾、小众的需求,但这个市场的付费意愿和规模有限。 第三,Agent对Agent的商业模式目前几乎完全停留在理论层面,尚未产生有意义的交易量。虽然这是一个需要专用结算基础设施的长期愿景,但与当前市场脱节。 相比之下,Agent对金融是目前唯一存在既有需求和付费意愿的类别。将AI嵌入基金经理、财务团队等现有工作流是自然演进,并能创造全新能力(如实时监控、自动调仓)。但该领域竞争激烈,受严格监管,老牌机构拥有显著优势。 文章最后指出,行业巨头因资金充足和防御心态仍在投入建设,但对初创公司而言,时间线至关重要。真正的机遇不在于单纯的支付层,而在于解决“协同”这一更宏大的问题——即如何协调Agent与人类的工作、验证成果并进行结算。大规模协同将自然催生结算机制,解决协同问题的公司终将吞并支付业务。经过一年探索,作者团队已将方向转向一个市场需求真实存在、增长迅速且尚未被充分服务的新领域。

链捕手24分钟前

我用了一年,才看清 Agent 支付扎心的真相

链捕手24分钟前

Claude Opus 4.8 找到一个 45 亿美元的 Bug,AI时代正在批量生产黑客

一名安全研究员使用AI模型Claude Opus 4.8在Zcash加密货币的隐私协议Orchard中发现了一个严重的“无限增发”漏洞,导致其市值短时间内蒸发约45亿美元。这一事件并非由Anthropic公司最尖端但受限的Claude Mythos模型完成,而是由已公开发布、进入日常工具的普通模型实现的,凸显了AI正在将发现高危漏洞的能力“民主化”和“廉价化”。 AI降低了漏洞挖掘的门槛,带来了双重影响:一方面,它催生了大量由AI生成的虚假或低质量安全报告,如同“注意力DDoS”攻击,消耗着本就人力匮乏的开源维护者精力;另一方面,它也能更快地找出那些隐藏多年、以往需要专家耗费巨大成本才能发现的真实漏洞。我们的数字世界一直建立在存在诸多潜在缺陷的代码之上,过去的“安全”在相当程度上源于发现成本高昂。 然而,能力的扩散并未带来责任的均摊。网络安全行业本就面临巨大的人才缺口,尤其是在复杂分析和应急响应层面。当AI让攻击和漏洞报告变得泛滥时,修复漏洞、守护系统的人力链条却变得更加紧张。破坏可以被自动化脚本轻易复制,但重建信任与安全仍需依赖稀缺的专业人力进行艰苦、细致的修复工作。 AI时代揭示了一个现实:我们习以为常的平稳数字生活,并非理所当然,而是依赖于一条脆弱的人力协作防线在持续对抗风险。未来真正的挑战或许不是找到漏洞,而是是否有足够的人愿意并能够修复它们。

marsbit57分钟前

Claude Opus 4.8 找到一个 45 亿美元的 Bug,AI时代正在批量生产黑客

marsbit57分钟前

以太坊价格预测:ETH可能翻倍,而Cardano(ADA)和这一新秀代币则有望迎来近500%的飙升

加密货币市场正显现新的活力迹象,投资者为下一轮牛市周期做准备。尽管大型加密货币仍占投资组合重要部分,但投资趋势正转向有望获得更高百分比回报的项目。 以太坊(ETH)作为领先的智能合约平台,若市场在2026年走牛,其价格可能从当前约2,014.7美元再次突破4,000美元,实现翻倍增长。 卡尔达诺(ADA)现交易价格约0.2329美元,因其对可扩展性、基于研究的开发和长期可持续性的关注而被部分投资者视为未来增长的基础。 新兴项目Little Pepe(LILPEPE)正获得显著关注。该项目是一个兼容以太坊的Layer 2环境,目前处于预售第13阶段,价格为0.0022美元,已筹集超过2,819万美元。它旨在为模因社区构建一个降低交易成本、提高速度并发展应用生态的Layer 2区块链。一些投资者基于其预售需求强劲、生态功能规划(如质押、模因启动平台和DAO治理)以及活跃的社区参与,预测其有500%的上涨潜力(目标价约0.0132美元)。 总结而言,以太坊仍是区块链领域重要的长期投资选择,卡尔达诺具备上行潜力,而Little Pepe则因其独特的Layer 2基础设施和社区建设,吸引着寻求高增长机会的投资者。随着市场预期2026年走强,这些项目值得关注。

TheNewsCrypto1小时前

以太坊价格预测:ETH可能翻倍,而Cardano(ADA)和这一新秀代币则有望迎来近500%的飙升

TheNewsCrypto1小时前

从以太坊到 AI的「CROPS」:Vitalik 反复强调的这套「慢变量」,究竟是什么?

以太坊基金会近期在文件“EF Mandate”中系统阐述了其核心指导原则“CROPS”,即抗审查性(Censorship Resistance)、抗捕获性(Capture Resistance)、开源(Open Source)、隐私(Privacy)和安全(Security)。这套原则旨在确保以太坊生态中,用户能在不依赖单一平台、不丧失最终控制权的前提下进行资产管理和链上交互。 Vitalik Buterin近期进一步将“CROPS”概念拓展至人工智能(AI)领域,提出“CROPS AI”的构想。随着AI Agent逐渐成为用户执行链上操作(如交易、资产整理)的入口,其中心化、黑箱化运行模式可能使用户的隐私、资产信息和操作意图面临风险。“CROPS AI”强调AI应具备抗审查、开放、保护隐私和安全的特点,提倡敏感操作尽可能在本地运行,减少对中心化云服务的依赖。 由此,以太坊的“CROPS Ethereum access layer”与“CROPS AI”产生了重要交集。两者共同关注的核心问题是:用户如何在调用远程服务(无论是链上RPC还是大语言模型)时,既能获得所需能力,又不泄露个人敏感信息。Vitalik提到的利用零知识证明实现付费远程LLM调用和私密Ethereum RPC读取,正是探索这一交集的具体方向。 “CROPS”原则并非抽象理念,它正具体化为对协议层、应用层(尤其是钱包)和用户体验层的设计要求。在未来,当AI成为数字世界的核心接口时,确保系统可理解、可验证、隐私且安全,将成为以太坊乃至整个Web3生态持续发展的关键价值主张和积极变量。

marsbit2小时前

从以太坊到 AI的「CROPS」:Vitalik 反复强调的这套「慢变量」,究竟是什么?

marsbit2小时前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

545人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片