Codex goal模式使用指南：如何让AI持续推进一个具体目标

marsbit发布于2026-06-06更新于2026-06-06

文章摘要

OpenAI推出的Codex目标模式（/goal）允许AI围绕一个具体目标持续工作数小时甚至数天，直至任务完成。其核心在于设定清晰、可验证的退出标准（如“部署时间降低30%”），而非冗长的需求描述。用户需提供足够的方向、工具和真实环境，让Codex能衡量进展并验证结果。文章强调，应避免让AI陷入视觉细节等模糊任务，建议将目标拆解为可评估的功能清单或指标。对于长期任务，需通过提交代码、更新文档或发送进度通知等方式跟踪进展。任务完成后，建议让AI审查并清理尝试过程中遗留的无效改动。总之，目标模式标志着AI从响应指令的助手，转变为需要被定义目标、配置环境并管理进度的工程执行者。

编者按:这篇文章来自 OpenAI 开发者关系成员 Dominik Kundel,对 Codex「goal mode / /goal」功能的使用经验进行总结。它讨论的并不是一个普通 prompt 技巧,而是 AI 编程工具正在发生的一次角色变化:Codex 不再只是响应单轮指令的代码助手,而开始成为一个可以围绕明确目标持续推进的执行型 Agent。

在 /goal 模式下,真正重要的不是把需求写得越长越细,而是为 Codex 设定清晰、可验证的退出标准。比如「部署时间降低 30%」「测试覆盖达到 100% parity」「LCP 降到 2.5 秒以下」。这些指标让 Codex 能够判断任务是否完成,也避免它在模糊目标中无限试错。与此同时,用户还需要提供足够的方向、工具和真实环境,让 Codex 能衡量进展、验证结果,而不是只在本地或假设条件下完成一个看似可行的方案。

文章尤其提醒,视觉类任务最容易让 Codex 陷入细节泥潭。与其要求「100% 像素级还原」,不如将视觉目标拆解为功能清单、设计系统规范和可评估指标。对于持续数小时甚至数天的长期任务,也需要通过 commit、draft PR、进度文档、Slack 更新或 side chat 等方式持续跟踪,避免最终只得到一堆不可追溯的改动。

这篇文章的信息增量在于,它把 /goal 重新定义为一种「长期任务管理机制」。当 AI 可以连续执行几十甚至上百小时,开发者的核心能力也随之变化:不只是让 AI 生成代码,而是为它定义目标、建立度量体系、配置执行环境,并在最后完成审查和复盘。换句话说,AI 编程正在从「写提示词」走向「管理一个持续工作的工程执行者」。

以下为原文:

我们推出了目标模式(goal mode,或 /goal),是为了帮助你让 Codex 朝着一个具体结果持续推进。当你设定一个目标后,Codex 会一直工作,直到目标达成——无论这需要几个小时,还是几天。已经有人让 Codex 为同一个目标连续工作超过 120 小时。

目标模式非常强大。想要最大化发挥它的作用,使用 /goal 时有 7 件事值得注意。

设定清晰、可验证的标准

当你激活目标模式时输入的提示词,既可以作为初始提示,更重要的是,它会成为这个目标的退出标准。Codex 会在每一轮工作之后检查:这个目标是否已经完成。

因此,你的目标提示不应该写得过长,而应该聚焦于一个清晰标准:什么情况下,才算这个目标已经达成。

多数情况下,一个好的目标最好包含一个明确的数字指标,供模型判断是否完成。例如:

「将构建和部署时间减少 30%。」

「把这个功能从 TypeScript 迁移到 Rust,并达到 100% 的测试一致性。」

「优化应用脚手架,使生产环境中的最大内容绘制(Largest Contentful Paint,衡量页面主要内容加载速度的指标)低于 2.5 秒。」

这个提示不一定总要包含数字,但通常来说,数字会让后续步骤更容易推进。

如果你还不确定该如何定义目标,或者想先和 Codex 一起头脑风暴这个项目,也不必一开始就用目标模式开启对话。

Codex 可以自行设定目标。你可以先正常开启一段对话,等你准备好让 Codex 开始执行时,再让 Codex 根据前面的讨论内容设定目标。

你也可以随时编辑目标:在 Codex 应用中点击编辑按钮,或在 CLI 中再次使用 /goal。

尽可能提供指引

像「将构建和部署时间减少 30%」这样的提示,听起来很酷,也可能让 Codex 找到一些创造性的解决方案。但如果你已经大致知道问题可能出在哪里,这种提示也可能让 Codex 走上弯路。

所以,在可能的情况下,最好告诉 Codex 应该从哪里开始排查、可以使用哪些工具来完成目标,或者给出其他提示,避免它钻进错误方向。

例如,我的同事 @reach_vb 在一次实验中就这样做了:他告诉 Codex,可以使用 Chrome 浏览器进入 Google Colab,并说明了一些可接受的限制条件,比如在让 Codex 训练模型时,可以让它自己生成数据集。

同样,如果你想缩短构建时间,并且已经知道大部分时间消耗在哪个环节,最好在提示词中先把 Codex 指向那个区域。

另一种做法是,你可以先让 Codex 在计划模式(plan mode)下做一些初步研究,并让它创建一个计划文件,用来记录潜在方案。随后,再让你的目标引用这份计划。

让进展可衡量

如果你的目标很有野心,或者 Codex 有很多种方式可以逐步接近目标,那么很重要的一点是:你要给 Codex 提供衡量进展的工具。

对于某些任务来说,这一点可能天然成立。比如优化构建时间、提高测试覆盖率,因为 Codex 通常已经能使用相关工具,或者会自然地创建这些工具。

但对于其他目标,你最好先和 Codex 一起头脑风暴:哪些工具有助于判断进展?或者给它一些提示,让它知道该如何确认自己是否正在向目标靠近。例如,为两个截图创建视觉差异比对工具,或者为你正在调试的智能体创建一套评估集。

我曾让 Codex 根据一段视频复刻一些组件,当时 Codex 为自己创建了一个工具,用来比较截图并检查差异。后来,它还持续迭代这个工具,加入了不同的差异比对模式。

根据任务不同,你还需要考虑是否有一些额外标准需要被测量或检查。否则,Codex 可能会以为任务已经完成,但在你看来其实还不完整。

比如,Codex 可能为了「像素级还原」某个 UI,直接裁剪设计参考图并内嵌到页面里;或者为了让测试通过率达到 100%,反过来削减测试覆盖范围。这些都不是你真正想要的完成方式。

创建一个真实的环境

如果你希望 Codex 真正朝目标取得有效进展,它就需要在一个足够真实的环境中运行。

在实践中,这意味着:如果你想优化部署时间或延迟问题,Codex 应该能访问部署和测试环境,而且这些环境要尽可能模拟生产环境。也就是使用相同的技术栈、相同的配置开关,以及类似的数据库。

举个例子,我们曾经在调试 developers.openai.com 的构建和部署时间优化。当时我们已经在使用部署预览,因此 Codex 可以利用这些预览环境进行部署,并查看相关日志。但问题在于,我们的预览部署和完整生产环境相比,禁用了一些构建路径。

因此,Codex 最后不得不进行手动部署,把代码部署到与生产配置更接近的环境中,才能真正检查问题所在。

类似地,你也可以让 Codex 使用 computer use(让模型操作真实应用界面的能力)来测试实际应用。为了优化 iOS 上的一些性能问题,@dimillian 甚至使用了实体设备,以获得最准确的测试环境。

谨慎设定视觉目标

给 Codex 一个视觉目标,比如「根据这张图片 100% 像素级还原这个 UI」,确实很诱人。但根据具体设置不同,这也可能带来麻烦。

如果你没有给出合适的指引和约束,Codex 可能会在某些细节上越陷越深,反而忽略整体目标。比如,如果参考图中包含一些图形元素,而你期待 Codex 生成这些元素——无论是 SVG 图标还是图片——它可能会把大量精力耗在「如何精确复刻这些素材」上,而不是正确拆解整个问题。

此外,Codex 需要工具才能正确进行视觉比较。这意味着更多图片输入、更高的整体 token 消耗,但并不一定能给 Codex 提供一种简单方式,让它识别真正有价值的改进机会。

所以,图片通常更适合作为目标上下文,而不是唯一的完成标准。你应该寻找其他方式,让 Codex 判断目标是否已经达成,例如功能清单、实现规范、是否符合设计系统等。

跟踪进展

如果 Codex 最终在后台工作数小时甚至数天,甚至是在另一台机器上运行,你很容易忘记它到底推进到哪里、已经做了哪些工作。

根据不同目标,我发现下面几种方式很有帮助:

·让 Codex 在关键节点提交代码,并推送到一个草稿 PR。尤其是当你在做网站,并且有预览部署时,这会非常有用。

·让 Codex 更新一份面向管理层的交付物。它可以是一个 HTML 文件,你可以在应用内浏览器里一直打开;也可以是·一个通过 Sites 部署给团队查看的页面;可以是一张渲染后的进度图,也可以只是一份普通的 Markdown 文件。

指示 Codex 主动发布进展更新。你也可以把这写进目标里:让 Codex 在取得重要进展时,把更新发送到 Slack 频道,或者你希望记录进展的其他地方。

使用其他聊天窗口询问状态。如果你只是想快速了解当前状态,可以运行 /side 启动一个新的侧边聊天,并在那里提问。因为它会从当前线程分叉出来,所以拥有截至目前的全部上下文,但生命周期很短。

在 Codex 应用中的另一个替代方法是:开启一个普通新聊天,让 Codex 阅读另一个目标线程,并回答你的问题。如果你让 Codex 设置一个自动化任务,定期检查进展,这种方式会尤其强大。

清理并最终确认结果

太好了,目标终于完成了!现在是不是就可以直接把成果甩给团队,然后收工?

通常来说,尤其是在优化类任务中,我发现让 Codex 回顾并审查自己完成的工作会很有帮助。你可以先用 /review 运行一次本地代码审查,但也值得让 Codex 更深入地反思:它为达成目标尝试过哪些路径?哪些尝试有效?哪些尝试无效?然后据此清理代码。

因为 Codex 会一直工作,直到达到目标,所以它可能尝试过一些效果不够好、甚至完全无效的方法,而这些残留改动可能还留在最终代码中。

给你的下一个任务也设一个 goal

Codex 的目标功能是一个极其强大的工具,可以帮助你解决一些最有意义的工程挑战。但只有当你提供了正确的环境和指令,它才能更高效地抵达目标。

你用 /goal 做过什么?

你可能也喜欢

华尔街交易员将加密货币市场的活跃时段转移至工作日

华尔街交易员正在将加密货币市场的主要活跃时段转移到工作日。几十年来，华尔街遵循着严格的作息，周末市场休市。然而，加密货币市场全天候运作的特性，正迫使机构投资者改变等周一开盘的习惯。这种不间断的交易环境改变了市场参与者的风险管理方式和价格反应模式。机构资本的涌入本应带来稳定并降低波动性，但实际上却导致了结构性转变和流动性错配。早期，加密货币市场约25%的交易量发生在周末。如今，据Kaiko Research数据，周末交易份额已降至16%，价格发现过程几乎完全转移到了美国市场时段（美东时间9:30-16:00）。纽约交易台关闭后，机构的“安全网”随之消失，市场不确定性增加。 BridgePort公司的分析显示，周末市场更为脆弱：平均交易成本因价差扩大而增加11%；执行一笔10万美元交易的市深度恶化近9%；整体显示流动性较工作日下降超5%。这意味着周末只需更少交易量就能引发剧烈价格波动，小规模下跌可能演变成连锁反应。美国比特币现货ETF的巨大成功是改变市场根本结构、加剧这种差异的关键因素。ETF在工作日提供了稳定需求，但其在周末的完全缺席造成了流动性真空。自2025年10月以来，投资者从美国现货ETF撤资超50亿美元，这在工作日能被深度市场吸收，但在周末可能引发严重动荡。因此，周末交易如今需要格外谨慎。市场深度变浅且缺乏大型做市商，大幅增加了价格突然跳空和滑点的风险。理解这些流动性运作的隐含机制，已成为在新金融现实中取得成功的关键。

cryptonews.ru39分钟前

cryptonews.ru39分钟前

每一次对CLARITY法案的投票都将被评估：300万加密货币支持者希望参议员投“赞成”票

美国加密货币倡导组织Stand With Crypto于7月27日宣布，将把参议员对《CLARITY法案》的投票记录纳入其公开立法者评分系统，以代表其300万美国支持者。该组织的评分可供加密货币持有者在11月中期选举前比较候选人立场，并呼吁立法者投票支持该法案。该组织强调，《CLARITY法案》已动员了数百万期待市场架构立法的加密货币持有者，选民正关注立法者在此关键时期的立场。此次投票记录将作为其评分系统中的突出项，影响中期选举。其选前情绪报告显示，近八成加密货币持有者极可能投票，约70%认为候选人的加密货币立场影响其选择，73%密切关注相关数字资产政策，59%自称无固定党派倾向，这可能使加密货币政策在激烈选战中更具影响力。目前法案推进面临挑战，需争取60张参议员赞成票，而一些民主党议员推动更严格的道德和消费者保护条款增加了投票难度。Galaxy Research已将法案在2026年通过的概率下调至30%。该法案已于5月14日获参议院银行委员会两党投票通过，正等待参议院全体表决。法案框架旨在明确联邦监管机构对各类数字资产的权限，并要求交易所及中介机构遵守注册、披露和客户保护规定。对参议员而言，此次投票不仅决定法案是否推进，其结果也将通过Stand With Crypto呈现给数百万支持者。

cryptonews.ru49分钟前

每一次对CLARITY法案的投票都将被评估：300万加密货币支持者希望参议员投“赞成”票

cryptonews.ru49分钟前

Tether的黄金代币XAUt获伊斯兰教法认证，旨在扩大伊斯兰金融的普及度

泰达公司（Tether）的黄金支持代币XAUt近日获得了Amanah Advisors颁发的伊斯兰教法（Shariah）认证。这一举措有望使该代币更广泛地被伊斯兰金融机构及寻求符合教法规定的实物黄金投资机会的投资者所接受。认证确认XAUt的结构符合伊斯兰金融核心原则，包括由实物黄金全额支持、无利息和无杠杆，以及储备透明。据泰达公司称，每个XAUt代表存放在瑞士金库中的一金衡盎司实物黄金。此举为泰达向要求投资产品符合教法的伊斯兰金融机构和投资者推广XAUt铺平了道路，预计将促进该代币在海湾合作委员会、南亚及非洲部分地区的采用。数据显示，XAUt是加密市场中规模最大的代币化黄金产品之一。截至3月31日，其背后支撑的实物黄金超过707,000金衡盎司，价值超33亿美元。长期以来，加密货币在伊斯兰学者中存在争议。随着企业着手解决对不确定性、投机和利息的担忧，符合教法的数字资产开始涌现。近期案例包括巴林AlAbraaj餐饮集团计划开发符合教法的比特币金融工具，以及Palm Azgar Finance将其符合教法的稳定币PUSD扩展至ADI Chain网络。同时，迪拜作为中东领先的加密枢纽，其受监管的数字资产市场持续扩大。

cointelegraph1小时前

cointelegraph1小时前

Kraken母公司Payward收购Magic Labs钱包业务

加密货币交易所Kraken的母公司Payward已同意收购Magic Labs的钱包即服务业务，此举旨在扩展其企业基础设施服务，以满足市场对链上金融服务日益增长的需求。 Payward表示，此次收购将使其能够将Magic Labs的非托管钱包技术整合至其B2B平台Payward Services中，该平台提供加密货币交易、托管、资产代币化以及法币出入金服务。交易财务条款未予披露。通过集成嵌入式钱包，企业可以直接在其应用程序内提供自托管钱包，而无需依赖第三方钱包提供商，从而通过单一集成获得更广泛的区块链基础设施套件。 Magic Labs称，其基础设施已被超过20万名开发者用于创建超6000万个非托管钱包，并处理了超过100亿美元的稳定币交易。双方预计交易将在未来数周内完成，前提是满足常规交割条件。完成此次出售后，Magic Labs表示将专注于其平台Newton的开发。该平台旨在帮助用户和应用程序安全地授权与验证链上交易，而无需依赖中心化中介。

cointelegraph1小时前

cointelegraph1小时前

Circle宣布收购近1000项区块链与金融科技领域专利

稳定币USDC发行商Circle宣布从IBM收购了一个包含约680个专利族、近1000项专利的知识产权组合，涵盖区块链、银行、金融服务、保险等多个领域。此举使Circle成为美国Web3领域专利数量领先的公司，显著增强了其在构建未来金融系统方面的技术实力与知识产权储备。Circle与IBM还计划探索合作机会，具体细节未公开，交易金额也未披露。据悉，IBM在2018-2019年间曾积极申请区块链专利，但此后策略转向提升专利质量而非数量。Circle首席法务官表示，此次收购有助于推动其区块链基础设施的使命。消息公布后，Circle股价上涨2.2%。

cryptonews.ru1小时前

cryptonews.ru1小时前

交易

现货

Codex goal模式使用指南：如何让AI持续推进一个具体目标

文章摘要

设定清晰、可验证的标准

尽可能提供指引

让进展可衡量

创建一个真实的环境

谨慎设定视觉目标

跟踪进展

清理并最终确认结果

热门币种推荐

相关问答

你可能也喜欢

华尔街交易员将加密货币市场的活跃时段转移至工作日

每一次对CLARITY法案的投票都将被评估：300万加密货币支持者希望参议员投“赞成”票

Tether的黄金代币XAUt获伊斯兰教法认证，旨在扩大伊斯兰金融的普及度

Kraken母公司Payward收购Magic Labs钱包业务

Circle宣布收购近1000项区块链与金融科技领域专利

交易

热门文章

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

从H2A到A2A：AI Agent经济体与Crypto新机遇

美股TradFi：传统金融在AI IPO浪潮下的稳健锚点

相关讨论

热门问答

热门分类

热门标签