Примечание редактора: эта статья описывает три способа, с помощью которых Codex взаимодействует с внешней средой: Computer Use, расширение Chrome и встроенный Browser. Хотя все они решают задачу «позволить Codex использовать компьютер», каждый предназначен для разных сценариев, имеет свои границы доступа и уровни доверия.
Computer Use обладает самым широким охватом: он может напрямую управлять авторизованными нативными приложениями в macOS/Windows, системными настройками, симулятором iOS и даже выполнять рабочие процессы, охватывающие несколько приложений. Он подходит для GUI-процессов, не имеющих API, плагинов или структурированных инструментов, но работает медленнее и предоставляет самые широкие права доступа. Расширение Chrome лучше подходит для задач, требующих состояния входа, cookies, нескольких вкладок и идентификации браузера — например, работа с Gmail, LinkedIn, Salesforce, внутренними админ-панелями или исследованиями, требующими авторизации на нескольких сайтах. Встроенный Browser ориентирован на сценарии разработки и отладки, особенно для локальных сервисов, визуальных багов, адаптивного дизайна и дизайн-комментариев. Он не наследует состояние входа из обычного браузера пользователя, обладает более узкими возможностями, но обеспечивает лучшую изоляцию.
Ключевой вывод статьи: Codex предлагает не один, а несколько способов «использования компьютера», и важно для каждой задачи выбирать наиболее узкий, безопасный и структурированный интерфейс. Если задачу можно решить с помощью плагина или MCP, не следует сразу прибегать к визуальному управлению. Если задача касается только веб-разработки,優先 используйте встроенный Browser. Если требуется идентификация и состояние входа в браузере пользователя — переключайтесь на Chrome. Computer Use стоит применять только тогда, когда структурированные инструменты не покрывают задачу, и она обязательно требует работы с графическим интерфейсом рабочего стола.
Appshots — это не четвёртый способ управления компьютером, а инструмент, который «показывает» Codex текущий контекст экрана. Он решает проблему входного контекста, тогда как Browser, Chrome и Computer Use решают проблему действий. Вместе эта многоуровневая система раскрывает ключевой аспект продуктивизации AI Agent: не в том, чтобы дать модели неограниченные права, а в том, чтобы постоянно сужать права, чётко определять границы в рамках конкретных задач и оставлять за пользователем право проверки критических действий.
Ниже следует оригинальный текст:
Codex использует компьютер тремя способами: Computer Use, расширение Chrome и встроенный браузер.
Между ними есть некоторое пересечение, как раз достаточное, чтобы вызвать путаницу.
Прочитав эту статью, вы узнаете, как установить и активировать эти три способа, в каких сценариях использовать каждый из них, как Appshots и Developer mode связывают их вместе, и что писать в AGENTS.md, чтобы Codex сам мог выбирать подходящий интерфейс.
Вкратце:
Тем не менее, если есть возможность, всегда優先 используйте плагины или MCP. Например, плагин Slack позволяет точнее найти нужную ветку, чем клики по интерфейсу Slack; операции, выполненные через плагин GitHub, также проще проверить, чем если бы Codex управлял веб-страницей. Визуальное управление лучше всего подходит там, где заканчиваются возможности структурированных инструментов.
Всё может быть @Computer
Computer Use — это самый широкий по охвату из трёх интерфейсов. Он позволяет Codex просматривать и управлять графическим интерфейсом в macOS и Windows, включая окна, меню, ввод с клавиатуры, а также буфер обмена в авторизованных приложениях.
Обычно он также самый медленный. Структурированные плагины могут напрямую вызывать API; Computer Use же нужно анализировать интерфейс, определять, куда кликнуть, ждать отклика приложения, а затем проверять следующее состояние. Этот визуальный цикл требует времени, но также означает, что Codex может управлять приложениями, у которых вообще нет доступного API.
В macOS «медленно» не обязательно означает «мешает». Computer Use может работать с авторизованными приложениями в фоновом режиме, а вы можете продолжать использовать остальную часть компьютера. Часто, открывая какое-то приложение во время работы с Codex, я обнаруживаю, что Codex уже тихо выполнил целый рабочий процесс на фоне.
В зависимости от того, какие приложения установлены и авторизованы на вашем компьютере, объектами управления могут быть Spotify, Xcode, System Settings, симулятор iOS или даже управление вашим iPhone через iPhone Mirroring. Он также может переключаться между несколькими приложениями, обрабатывая рабочие процессы, охватывающие разные программы.
Используйте его, когда задача зависит от:
Нативных десктопных приложений, таких как Spotify или финансовые приложения;
Симулятора iOS, iPhone Mirroring или других процессов, доступных только через графический интерфейс;
Системных или прикладных настроек;
Источников данных, не имеющих плагинов или API;
Рабочих процессов, требующих переключения между несколькими приложениями;
Последнего шага в структурированной интеграции, который отсутствует.
Установка: откройте Settings > Computer Use в Codex и нажмите Install.
Активация: упомяните @Computer или явно попросите Codex использовать Computer Use. По мере улучшения модели в будущем он также сможет вызывать его самостоятельно при необходимости.
Для начала можно попробовать несколько примеров:
Мой любимый пример начался с кражи посылки. Amazon сообщил, что до соединения с поддержкой придётся ждать около 25 минут. Я передал тред Codex под управление Computer Use, чтобы он каждые пять минут проверял окно чата, а после появления поддержки — каждую минуту, и старался помочь мне получить возврат средств. Когда я вернулся после душа, возврат уже был оформлен.
Я также использую Computer Use как «последнюю милю» в структурированных рабочих процессах. В одном из видео о релизе Codex мог читать фидбэк из Slack, изменять код и рендерить новое видео, но интеграция со Slack в том треде не могла загружать файлы. Тогда Computer Use нажал Add file, восполнив этот недостающий шаг.
Это также интерфейс с самыми широкими границами доверия. Давайте ему права только на одно конкретное приложение или процесс за раз. Когда какие-то чувствительные приложения не являются частью задачи, держите их закрытыми; внимательно проверяйте запросы на разрешения; при работе с финансами, аккаунтами, платежами, учётными данными, приватной информацией и изменениями системной безопасности лучше присутствовать и контролировать процесс.
Используйте @Chrome для работы с несколькими вкладками и состоянием входа
Расширение Codex Chrome позволяет Codex получить доступ к вашему уже авторизованному состоянию в Chrome. Его следует использовать, когда задача зависит от аккаунта, cookies, профиля браузера или уже открытых и аутентифицированных вами вкладок.
Этот интерфейс подходит для работы в таких инструментах, как:
Gmail или LinkedIn;
Salesforce или панели поддержки клиентов;
Внутренние дашборды;
Исследования с авторизацией на нескольких сайтах;
Формы, зависящие от вашего аккаунта или расширений браузера.
Установка: откройте Plugins в Codex, добавьте Chrome и следуйте инструкциям по настройке. Codex проведёт вас через установку расширения Codex Chrome и предоставление разрешений в Chrome. Когда расширение покажет Connected, откройте новый тред.
Активация: упомяните @Chrome или явно попросите Codex использовать ваш авторизованный браузер Chrome:
Задачи Chrome выполняются в группах вкладок, что помогает связать вкладки, относящиеся к конкретному треду Codex. В отличие от встроенного браузера, этот интерфейс использует вашу браузерную идентификацию. Это делает его более мощным, но и более чувствительным.
Другое важное преимущество — управление несколькими вкладками. Chrome позволяет связывать несколько вкладок с одной задачей: читать контекст на одной странице, сверять информацию на другой, а затем продолжать рабочий процесс на третьей. Computer Use также может управлять браузером визуально, но Chrome воспринимает задачу как браузерный рабочий процесс, а не как последовательность операций с координатами экрана.
Недавно в одном треде я передал Codex уже открытую вкладку Strudel Composer и попросил сделать музыку интереснее. Chrome предоставил выбранную вкладку и инструменты WebMCP, которые предоставляет эта страница. Codex проверил структуру композиции, переписал гармонии и общую форму на четыре минуты, изменил темп, сохранил трек и продолжил воспроизведение. Ему не нужно было визуально искать каждый элемент управления в интерфейсе, потому что Chrome сочетает контекст вкладки со структурированными возможностями, предоставляемыми страницей.
Я также использовал его для ведения долгосрочного Twitter-треда. Общая инструкция была такой:
Интересно здесь не то, что Codex может открыть Twitter, а то, что этот тред может долгое время возвращаться в одну и ту же авторизованную рабочую среду, связывать найденный контент с локальными файлами и оставлять результат для моей проверки.
Границы доверия здесь очень важны. Сайты могут воспринимать клики Codex, отправку форм и сообщений как действия, совершённые лично вами. Само содержимое веб-страниц также является ненадёжным вводом. Отделяйте шаги с серьёзными последствиями: исследования, навигацию и составление черновиков можно автоматизировать; перед отправкой, публикацией, покупкой или подачей заявки требуется ваша проверка.
Если вся задача выполняется в браузере,優先 используйте Chrome, а не Computer Use. Chrome обладает нативным браузерным контекстом, необходимым для таких задач, и при этом не расширяет доступ до всего рабочего стола.
Используйте встроенный @Browser для работы над сайтом, который вы разрабатываете
Встроенный браузер — это браузер, существующий внутри треда Codex. Вы и Codex делите один и тот же рендер страницы, что делает его особенно подходящим для создания и отладки веб-приложений.
Обычно я начинаю с него, когда работаю над:
Локальным сервером разработки;
Страницами предпросмотра на основе файлов;
Публичными страницами, не требующими входа;
Воспроизведением визуальных багов;
Проверкой адаптивного макета;
Оставлением дизайн-фидбэка по элементам страницы.
Его самое важное ограничение — изоляция. Встроенный браузер не использует ваш обычный профиль браузера, cookies, расширения, сессии входа или уже открытые вкладки. Когда важна идентификация, это ограничение; но когда аккаунт не требуется, это, наоборот, полезная граница.
Настройка: откройте Plugins в Codex, добавьте и включите плагин Browser.
Активация: упомяните @Browser в промпте или явно попросите Codex использовать встроенный браузер:
Это создаёт тесный цикл обратной связи: Codex может редактировать код, управлять страницей, проверять состояние рендера, делать скриншоты, а затем перепроверять тот же процесс после исправлений.
Моя любимая часть — аннотации. Когда я проверяю локальное приложение, могу просто кликнуть на элемент или выделить область и оставить комментарий. Элементы управления стилями также позволяют точнее предпросматривать и оставлять фидбэк по тексту, шрифтам, отступам и цветам. Обычно я сочетаю это с голосовым вводом и пошаговым руководством: я проверяю страницу, оставляю комментарии и продолжаю добавлять новые замечания в очередь, пока Codex обрабатывает текущий фидбэк. Сама страница становится спецификацией.
Это особенно полезно для дизайн-работы. Я часто прошу Codex оформить идею, пакет исследований или статус проекта в виде одностраничного index.html, а затем открыть его во встроенном браузере. Вместо того чтобы пытаться описать весь дизайн в другом промпте, я могу прямо на реальной странице оставить пометки: «Эта иерархия перевёрнута», «Здесь не должно быть так похоже на карточку», «Этим элементам управления нужно больше места» или «По всему сайту использовать эту шкалу размеров шрифта». Codex получает комментарии со скриншотами и контекстом элементов, изменяет файл, а затем снова открывает ту же страницу для следующего раунда.
Этот цикл больше похож на совместную работу с дизайнером на одном холсте, чем на пересылку скриншотов и текстовых описаний.
Встроенный браузер также хорошо подходит в качестве отправной точки для гибридных рабочих процессов. В другом треде я открыл пост в X во встроенном браузере и попросил Codex изучить связанные обсуждения. Видимая страница помогла ему понять, о каком именно посте идёт речь; затем Codex переключился на Twitter CLI и получил 38 ответов, включая вложенные, скрытые в представлении браузера. Это практика принципа «использовать самый узкий интерфейс»: браузер для подтверждения контекста на экране, затем структурированный инструмент для более глубокого поиска.
Здесь тоже есть компромисс. Изоляция встроенного браузера делает его хорошим интерфейсом для разработки, но также означает, что он не подходит для работы с Google-авторизацией, passkey или сайтами, зависящими от расширений браузера. Когда важна идентификация, переключайтесь на Chrome.
Appshots
Appshot — это не четвёртый способ управления компьютером для Codex. Это способ указать Codex на контекст перед вами.
На Mac дважды нажмите CMD, чтобы сделать снимок последнего активного окна. Codex добавит в тред изображение и весь доступный текст. Вы можете сделать Appshot ошибки, письма, дизайна, панели настроек или незнакомой формы и просто сказать:
Вот как я проще всего запоминаю эту модель: Appshots — это способ, которым вы указываете на что-то на компьютере; Browser, Chrome и Computer Use — это способы, которыми Codex совершает действия.
В настоящее время Appshots создаются через приложение Codex на macOS. Они захватывают самое верхнее окно, а не весь рабочий стол. Это делает их полезным инструментом: вы можете предоставить сфокусированный контекст, не давая прав на управление этим приложением.
Как следить за развитием
Эти интерфейсы быстро меняются. Если вы хотите получать практические детали, а не ждать большого итогового поста:
Следите за Ari Weinstein (@AriX), чтобы узнавать о Computer Use и Appshots;
Следите за James Sun (@JamesZmSun), чтобы узнавать о Browser;
Следите за Andrew Ambrosino (@ajambrosino), чтобы узнавать о релизах приложения Codex и более широких продуктовых нарративах для рабочего стола;
Следите за OpenAI Developers (@OpenAIDevs), чтобы узнавать новости о Codex и OpenAI Platform в целом.






