Codex如何使用电脑?三种入口与权限边界

marsbit发布于2026-06-21更新于2026-06-21

文章摘要

Codex 使用电脑有三种主要入口:Computer Use、Chrome 扩展和应用内浏览器,它们对应不同的任务场景、权限边界和信任级别。 **Computer Use** 功能最广,可操作 macOS/Windows 原生应用、系统设置等,适合无 API 支持的 GUI 流程,但速度较慢,权限边界最宽,需谨慎授权敏感应用。 **Chrome 扩展** 适合依赖浏览器登录状态、Cookies 和多标签页的任务,如处理 Gmail、Salesforce 或跨网站研究。它继承用户身份,能力较强但需注意操作审核。 **应用内浏览器** 用于开发和调试,如本地服务预览、视觉 Bug 复现和设计批注。它隔离性强,不继承登录状态,适合与 Codex 在页面上直接协作修改。 **核心原则**是优先选择最窄、最安全、最结构化的操作界面:能用插件或 MCP 就不动用视觉控制;网页开发优先用应用内浏览器;需要登录状态时用 Chrome 扩展;仅当结构化工具无法覆盖且必须依赖桌面 GUI 时,才使用 Computer Use。 **Appshots** 是输入工具,用于将当前屏幕上下文提供给 Codex,而非控制方式。结合三种行动入口,这套分层体系体现了 AI Agent 产品化的关键:在具体任务中收窄权限、明确边界,并让用户保留对关键行动的审核权。

编者按:这篇文章梳理了 Codex 操作外部环境的三种入口:Computer Use、Chrome 扩展和应用内 Browser。三者看似都在解决「让 Codex 使用电脑」的问题,但对应的是不同的任务场景、权限边界和信任级别。

其中,Computer Use 覆盖面最广,可以直接操作 macOS / Windows 上被授权的原生应用、系统设置、iOS 模拟器,甚至跨多个应用完成工作流。它适合那些没有 API、插件或结构化工具支持的 GUI 流程,但代价是速度更慢,权限边界也最宽。Chrome 扩展则适合依赖登录态、Cookies、多标签页和浏览器身份的任务,例如 Gmail、LinkedIn、Salesforce、内部后台,或跨多个网站的已登录研究。应用内 Browser 更偏向开发和调试场景,尤其适合本地服务、视觉 bug、响应式布局和设计批注;它不继承用户正常浏览器的登录状态,能力更窄,但隔离性也更强。

文章的核心判断是,Codex 并不是只有一种「用电脑」的方式,真正重要的是根据任务选择最窄、最安全、最结构化的操作界面。能用插件或 MCP,就不应先动用视觉控制;任务只涉及网页开发,就优先使用应用内 Browser;需要用户浏览器身份和登录状态时,再切换到 Chrome;只有当结构化工具无法覆盖,且任务必须依赖桌面图形界面时,Computer Use 才是最后一公里。

Appshots 则不是第四种控制电脑的方式,而是把当前屏幕上下文「指给 Codex 看」的工具。它解决的是上下文输入问题,而 Browser、Chrome 和 Computer Use 解决的是行动问题。放在一起看,这套分层实际上揭示了 AI Agent 产品化的关键:不是让模型获得无限权限,而是在具体任务中不断收窄权限、明确边界,并让用户保留对关键行动的审核权。

以下为原文:

Codex 使用电脑有三种方式:Computer Use、Chrome 扩展,以及应用内浏览器。

它们之间有一定重叠,刚好重叠到容易让人困惑。

读完这篇文章,你会知道如何安装并触发这三种方式,分别该在什么场景下使用,Appshots 和 Developer mode 如何把它们连接起来,以及该在 AGENTS.md 里写些什么,让 Codex 能自己选择合适的操作界面。

简单版是:

话虽如此,只要可以,还是优先使用插件或 MCP。比如 Slack 插件能比在 Slack 里到处点击更精准地检索一个线程;GitHub 插件产生的操作,也比让 Codex 驱动网页更容易检查。视觉控制最适合用在结构化工具能力到达边界的地方。

一切都可以是 @Computer

Computer Use 是这三种操作界面里覆盖面最广的一个。它让 Codex 能够在 macOS 和 Windows 上查看并操作图形界面,包括窗口、菜单、键盘输入,以及你授权应用里的剪贴板。

它通常也是最慢的。结构化插件可以直接调用 API;Computer Use 则需要观察界面、判断该点击哪里、等待应用响应,再检查下一步状态。这个视觉循环会消耗时间,但也意味着 Codex 可以操作那些完全没有可用 API 的应用。

在 macOS 上,慢并不一定意味着会打扰你。Computer Use 可以在后台操作你授权的应用,而你仍然可以继续使用电脑的其他部分。很多时候,我在用 Codex 时打开某个应用,才发现 Codex 已经在后台安静地完成了一套工作流。

根据你电脑上安装并授权了哪些应用,这些操作对象可以包括 Spotify、Xcode、System Settings、iOS 模拟器,甚至是用 iPhone Mirroring 控制你的 iPhone。它也可以在多个应用之间切换,处理横跨不同应用的工作流。

当任务依赖以下内容时,可以使用它:

原生桌面应用,比如 Spotify 或金融类应用;

iOS 模拟器、iPhone Mirroring,或其他只能通过图形界面操作的流程;

系统或应用设置;

没有插件或 API 的数据源;

需要在多个应用之间切换的工作流;

某个结构化集成里缺失的最后一步操作。

安装方式:打开 Codex 的 Settings > Computer Use,然后点击 Install。

触发方式:提到 @Computer,或者明确要求 Codex 使用 Computer Use。随着模型能力提升,未来在需要时它也会自己调用。

可以先试几个例子:

我最喜欢的一个例子,起因是一个包裹被偷了。Amazon 告诉我,要等大约 25 分钟才能接通客服。我把一个 Codex 线程交给 Computer Use,让它每五分钟检查一次聊天窗口,等客服出现后改为每分钟检查一次,并尽力帮我拿到退款。等我洗完澡回来,退款已经完成了。

我也把 Computer Use 用作结构化工作流里的「最后一公里」。在一次发布视频中,Codex 可以从 Slack 读取反馈、修改代码并渲染新视频,但当时该线程里的 Slack 集成无法上传文件。于是 Computer Use 点击了 Add file,补上了这个缺失的步骤。

它也是三者中信任边界最宽的一种。一次只给它一个明确的应用或流程。当某些敏感应用不是任务的一部分时,保持关闭;仔细检查权限弹窗;涉及金融、账户、支付、凭证、隐私和系统安全变更时,最好人在场监督。

用 @Chrome 处理多标签页和登录状态

Codex Chrome 扩展让 Codex 能访问你已经登录的 Chrome 状态。当任务依赖账号、cookies、浏览器配置文件,或你已经打开并认证过的标签页时,就应该使用它。

这类操作界面适合以下工具中的工作:

Gmail 或 LinkedIn;

Salesforce 或客服后台;

内部仪表盘;

跨多个网站的已登录研究;

依赖你的账号或浏览器扩展的表单。

安装方式:打开 Codex 的 Plugins,添加 Chrome,并按照设置流程操作。Codex 会引导你安装 Codex Chrome 扩展,并批准 Chrome 权限。当扩展显示 Connected 后,开启一个新线程。

触发方式:提到 @Chrome,或者明确要求 Codex 使用你已登录的 Chrome 浏览器:

Chrome 任务会在标签页组里运行,这有助于把某个 Codex 线程相关的标签页放在一起。和应用内浏览器不同,这个操作界面携带的是你的浏览器身份。这让它能力更强,也更敏感。

另一个主要优势是多标签页控制。Chrome 可以让多个标签页与同一个任务关联起来,在一个页面里读取上下文,在另一个页面里对照信息,再到第三个页面继续工作流。Computer Use 也可以通过视觉方式驱动浏览器,但 Chrome 会把任务理解为一个浏览器工作流,而不是一连串屏幕坐标操作。

最近有一个线程,我把一个已经打开的 Strudel Composer 标签页交给 Codex,让它把音乐做得更有趣。Chrome 给了它被选中的标签页,以及这个页面暴露出来的 WebMCP 工具。Codex 检查了乐曲结构,重写了和声和四分钟的整体形式,修改了速度,保存了曲目,并让它继续播放。它不需要在界面上视觉搜寻每一个控件,因为 Chrome 可以把标签页上下文和页面提供的结构化能力结合起来。

我还用它跑一个长期 Twitter 线程。大致指令是:

有意思的地方,不是 Codex 能打开 Twitter,而是这个线程可以长期回到同一个已登录工作环境,把发现的内容连接到本地文件,并留下一个可供我审核的结果。

这里的信任边界很重要。网站可能会把 Codex 的点击、表单提交和消息发送视为你本人采取的行动。网页内容本身也是不可信输入。把后果较重的步骤明确区分出来:研究、导航和起草可以自动完成;发送、发布、购买或提交之前,需要你审核。

如果整个任务都在浏览器里完成,优先用 Chrome,而不是 Computer Use。Chrome 拥有这类任务需要的浏览器原生上下文,同时不会把访问范围扩大到整个桌面。

用应用内 @Browser 处理你正在开发的网站

应用内浏览器是存在于 Codex 线程内部的浏览器。你和 Codex 共享同一个渲染页面,所以它特别适合构建和调试 Web 应用。

我通常会从这里开始处理:

本地开发服务器;

基于文件的预览页面;

不需要登录的公开页面;

复现视觉 bug;

检查响应式布局;

留下针对页面元素的设计反馈。

它最重要的约束是隔离。应用内浏览器不会使用你的普通浏览器配置文件、cookies、扩展、登录会话或现有标签页。当任务需要账号身份时,这是一个限制;但当任务不需要账号时,这反而是一个有用的边界。

设置方式:打开 Codex 的 Plugins,添加 Browser 插件并启用它。

触发方式:在提示词里提到 @Browser,或者明确要求 Codex 使用应用内浏览器:

这会形成一个紧密反馈循环:Codex 可以编辑代码、操作页面、检查渲染状态、截图,然后在修复后重新验证同一流程。

我最喜欢的部分是标注。当我评审一个本地应用时,可以直接点击某个元素,或选中一块区域并留下评论。样式控件也让我可以更精准地预览和反馈文字、字体、间距和颜色。我通常会把它和语音输入、过程引导结合起来:我评审页面、留下评论,并在 Codex 处理当前反馈时继续排队添加更多意见。这个页面本身就变成了规格说明书。

这对设计工作尤其有用。我经常要求 Codex 把一个想法、一份研究包,或一个项目状态整理成一个单文件 index.html,然后用应用内浏览器打开它。相比在另一个提示词里试图描述整套设计,我可以直接在真实页面上标注:「这个层级关系反了」「这里不要那么像卡片」「这些控件需要更多空间」,或者「全站都用这个字号比例」。Codex 会收到带有相关截图和元素上下文的评论,修改文件,然后重新打开同一页面进入下一轮。

这个循环感觉更接近于和一位设计师在同一张画布上工作,而不是来回传截图和文字说明。

应用内浏览器也适合作为混合工作流的起点。在另一个线程里,我用应用内浏览器打开了一条 X 帖子,让 Codex 调查相关讨论。可见页面帮助它确认我指的是哪一条帖子;随后 Codex 切换到 Twitter CLI,检索了 38 条回复,其中包括浏览器视图隐藏掉的嵌套回复。这就是「使用最窄操作界面」原则的实践:用浏览器确认屏幕上的上下文,再用结构化工具做更深层检索。

这里也有取舍。应用内浏览器的隔离性让它成为很好的开发界面,但也意味着它不适合处理 Google 登录、passkey,或依赖浏览器扩展的网站。当身份很重要时,切换到 Chrome。

Appshots

Appshot 不是 Codex 控制电脑的第四种方式。它是一种把 Codex 指向你眼前上下文的方法。

在 Mac 上,按两次 CMD 键,就可以捕捉最近的窗口。Codex 会把一张图片和所有可用文本附加到线程里。你可以对一个错误、一封邮件、一个设计、一个设置面板,或者一个陌生表单做 Appshot,然后直接说:

这就是我觉得最容易记住的心智模型:Appshots 是你用来指向电脑上某个东西的方式;Browser、Chrome 和 Computer Use 则是 Codex 采取行动的方式。

Appshots 目前通过 macOS 上的 Codex 应用创建。它捕捉的是最前面的窗口,而不是整个桌面。这使它成为一种很有用的方式:你可以提供聚焦的上下文,而无需授予对该应用的控制权。

如何跟进这些进展

这些操作界面变化很快。如果你想获得实用细节,而不是等待一篇巨大的发布总结:

关注 Ari Weinstein(@AriX),了解 Computer Use 和 Appshots;

关注 James Sun(@JamesZmSun),了解 Browser 相关内容;

关注 Andrew Ambrosino(@ajambrosino),了解 Codex 应用发布,以及更大的桌面产品叙事;

关注 OpenAI Developers(@OpenAIDevs),了解更广泛的 Codex 和 OpenAI Platform 新闻。

相关问答

QCodex使用电脑的三种主要方式分别是什么?

ACodex使用电脑的三种主要方式分别是:Computer Use(直接操作桌面图形界面)、Chrome扩展(操作已登录状态的Chrome浏览器)和应用内Browser(用于开发和调试的隔离浏览器)。

Q在哪种场景下应该优先使用Chrome扩展,而不是Computer Use?

A当任务依赖用户的登录状态、Cookies、多标签页和浏览器身份时(例如操作Gmail、LinkedIn、Salesforce、内部后台或跨多个已登录网站进行研究),应优先使用Chrome扩展。因为它拥有浏览器原生上下文且权限边界更窄,比Computer Use更安全且更适合此类任务。

Q应用内Browser的主要特点和适用场景是什么?

A应用内Browser的主要特点是隔离性强,不继承用户正常浏览器的登录状态、cookies和扩展。它非常适合本地开发服务器调试、检查视觉bug、测试响应式布局、对页面进行设计批注等开发和设计场景。

QAppshots的作用是什么?它与Computer Use、Chrome扩展和应用内Browser有何不同?

AAppshots的作用是捕捉用户电脑屏幕前台的窗口截图(包含文本),作为一种向Codex提供当前屏幕上下文或“指物”的方式,用于输入信息。它与后三者的根本区别在于:Appshots是输入工具,用于提供上下文;而Computer Use、Chrome扩展和应用内Browser是输出工具,用于让Codex执行操作。Appshots本身不授予控制权限。

Q文章建议选择操作界面的核心原则是什么?并举一个例子说明。

A核心原则是根据任务选择权限最窄、最安全、最结构化的操作界面,即“能用结构化工具(插件/MCP),就不用视觉控制;能用应用内Browser就不用Chrome;只有当结构化工具无法覆盖且必须依赖桌面图形界面时,才使用Computer Use”。例如,调试本地开发的网页时,应优先使用隔离的应用内Browser,而不是授予更宽权限的Computer Use。

你可能也喜欢

Hyperliquid ETF资产声明引关注,HYPE叙事在X平台持续升温

一篇X平台推文声称,三只在2026年5月推出的Hyperliquid(HYPE)交易所交易基金(ETF)已合计积累了1.58亿美元的资产,从而引发了市场关注。 根据用户AlphaOnChain的帖子,其中Bitwise HYPE ETF据称拥有8800万美元资产,21Shares HYPE ETF则为6600万美元。然而,此数据来源于社交媒体,并非官方基金发行人的正式文件或数据看板,因此需要谨慎对待,更多应被视为市场情绪和话题热度的风向标。 这一话题的热度反映了当前加密市场的关注点可能正在从比特币、以太坊等主流资产向外扩散。Hyperliquid以其链上永续交易和交易所生态而闻名,如果相关ETF产品确实吸引了可观的资金流入,可能表明机构和散户投资者开始将目光投向更具潜力的山寨币领域。HYPE本身结合了去中心化金融(DeFi)、衍生品和交易所基础设施等多个叙事,使其在交易者转向高风险资产时成为一个自然的炒作标的。 对于交易者而言,关键在于区分社交媒体热度与基本面支撑。尽管社交讨论可能在短期内影响市场,但持续的价格上行通常需要经过验证的资金流入、充足的流动性以及生态系统的持续成长作为基础。 因此,虽然Hyperliquid ETF的叙事正在获得更多关注,但在获得官方数据证实前,投资者应保持审慎态度。

bitcoinist1小时前

Hyperliquid ETF资产声明引关注,HYPE叙事在X平台持续升温

bitcoinist1小时前

芯片设备“铁律”,正在被打破

长期以来,半导体设备行业存在一条“买方市场”铁律:设备商在新设备导入时常需大幅降价,后续重复采购时也面临持续压价压力。但这一规则正在被打破。近期,SK海力士的多家设备供应商反向提出涨价请求,反映出AI算力狂潮引发的设备供需失衡。 以TCB(热压键合)设备为例,因HBM4扩产需求,韩美半导体、韩华Semitech等厂商订单激增。尽管混合键合技术被视为未来方向,但在HBM4阶段,TCB因技术成熟、量产风险低仍是主流,且其自身也在不断升级。市场预计TCB与混合键合将在未来一段时间内共存。 AI扩产潮还导致测试设备面临关键零部件(如FPGA、CPU、Driver IC)短缺,这些部件被数据中心优先抢购,致使测试设备交付延迟,形成“AI芯片缺货-扩产-测试设备需求增加-关键部件被抢-设备延期”的连锁反应。 整体上,半导体设备行业正进入由AI驱动的新一轮上行周期。SEMI预计全球设备销售额将持续增长至2027年。增长动力主要来自三条主线:先进逻辑芯片(如台积电、英特尔扩产)、存储(尤其是HBM带动DRAM投资)以及先进封装(如CoWoS)。AI算力需求正在重塑设备市场的格局与定价权。 总之,头部设备商凭借在关键工艺节点上的技术壁垒和产能保障能力,正获得前所未有的议价权,改写半导体行业的利益分配格局。

marsbit1小时前

芯片设备“铁律”,正在被打破

marsbit1小时前

TradingView分析师警告:比特币必须守住6万美元,否则面临重大破位风险

比特币目前正处在一个被交易员视为心理和技术关键价位的位置。分析师weslad在6月20日的分析中指出,BTCUSDT已触及一个新的需求区,这可能决定其下一波主要走势。该区域被视为买盘已经介入,但也绝不能失守的防线。 图表分析显示,只要比特币能守住当前需求区,反弹至81,000美元供应区域的概率仍然很高。这将意味着价格回归近期跌势的起点,若买盘能维持压力,可能引发流动性争夺。 跌破6万美元将严重损害看涨前景。该水位被视作多头的底线,若收盘价明确跌破,将破坏看涨结构,并可能导致更深度的下跌。该价位的重要性不仅在于其是整数心理关口,还在于许多交易者都在关注同一支撑位,一旦失守可能触发止损盘、强制平仓和市场情绪转变。反之,若能守住该区域,则能为多头提供有力论据,表明近期抛售已达衰竭点。 上行目标81,000美元固然诱人,但比特币仍需为此创造条件。多头需要捍卫60,000美元,收复附近阻力位,并证明需求足够强劲,能将防御性反弹转变为趋势反转。在此之前,市场格局最好被理解为一个二元化的支撑测试:守住区域,则复苏希望犹存;明确失守,则市场可能开始为更深度的调整定价。

bitcoinist3小时前

TradingView分析师警告:比特币必须守住6万美元,否则面临重大破位风险

bitcoinist3小时前

交易

现货
合约
活动图片