Nota del editor: Este artículo desglosa las tres formas en que Codex puede operar en el entorno externo: Computer Use, la extensión de Chrome y el Navegador integrado en la aplicación. Aunque los tres parecen resolver el problema de "permitir que Codex use el ordenador", se corresponden con diferentes escenarios de tareas, límites de permisos y niveles de confianza.
De ellos, Computer Use tiene el alcance más amplio, pudiendo operar directamente aplicaciones nativas autorizadas en macOS/Windows, configuraciones del sistema, el simulador de iOS, e incluso completar flujos de trabajo que abarquen múltiples aplicaciones. Es adecuado para flujos GUI que no tienen soporte de API, plugins o herramientas estructuradas, pero el precio es una velocidad más lenta y unos límites de permisos también más amplios. La extensión de Chrome es más adecuada para tareas que dependen del estado de inicio de sesión, cookies, múltiples pestañas e identidad del navegador, como Gmail, LinkedIn, Salesforce, paneles internos, o investigaciones que requieran inicio de sesión en múltiples sitios web. El Navegador integrado está más orientado a escenarios de desarrollo y depuración, especialmente apropiado para servicios locales, bugs visuales, maquetación responsive y anotaciones de diseño; no hereda el estado de inicio de sesión del navegador normal del usuario, sus capacidades son más limitadas, pero su aislamiento también es mayor.
La conclusión principal del artículo es que Codex no tiene solo una forma de "usar el ordenador"; lo realmente importante es elegir la interfaz de operación más limitada, segura y estructurada según la tarea. Si se puede usar un plugin o MCP, no se debería recurrir primero al control visual; si la tarea solo implica desarrollo web, se debe priorizar el Navegador integrado; cuando se necesite la identidad del navegador y el estado de inicio de sesión del usuario, se cambia a Chrome; solo cuando las herramientas estructuradas no puedan cubrir la tarea y esta dependa necesariamente de la interfaz gráfica de escritorio, Computer Use es la última opción.
Appshots no es una cuarta forma de controlar el ordenador, sino una herramienta para "mostrarle a Codex" el contexto actual de la pantalla. Resuelve el problema de entrada de contexto, mientras que Browser, Chrome y Computer Use resuelven el problema de la acción. Visto en conjunto, esta estratificación revela en realidad una clave para la creación de productos de AI Agent: no se trata de dar al modelo permisos ilimitados, sino de restringir continuamente los permisos, definir límites claros en tareas concretas y permitir que el usuario conserve el derecho de revisar acciones críticas.
A continuación, el texto original:
Codex puede usar el ordenador de tres formas: Computer Use, la extensión de Chrome y el navegador integrado en la aplicación.
Hay cierto solapamiento entre ellas, justo lo suficiente como para generar confusión.
Después de leer este artículo, sabrás cómo instalar y activar estas tres formas, en qué escenarios usar cada una, cómo Appshots y el modo Desarrollador las conectan, y qué escribir en AGENTS.md para que Codex pueda elegir automáticamente la interfaz de operación adecuada.
La versión simplificada es:
Dicho esto, siempre que sea posible, se debe priorizar el uso de plugins o MCP. Por ejemplo, el plugin de Slack puede buscar un hilo con más precisión que hacer clics por todas partes en Slack; las operaciones generadas por el plugin de GitHub también son más fáciles de verificar que hacer que Codex controle la página web. El control visual es más adecuado donde las herramientas estructuradas llegan a sus límites.
Todo puede ser @Computer
Computer Use es la interfaz de operación con el alcance más amplio de estas tres. Permite a Codex ver y operar la interfaz gráfica en macOS y Windows, incluyendo ventanas, menús, entrada por teclado y el portapapeles en las aplicaciones que autorices.
También suele ser la más lenta. Los plugins estructurados pueden llamar directamente a la API; Computer Use necesita observar la interfaz, decidir dónde hacer clic, esperar la respuesta de la aplicación y luego verificar el siguiente estado. Este ciclo visual consume tiempo, pero también significa que Codex puede operar aplicaciones que no tienen ninguna API disponible.
En macOS, lento no necesariamente significa que te moleste. Computer Use puede operar aplicaciones autorizadas en segundo plano, mientras tú sigues usando otras partes del ordenador. Muchas veces, cuando uso Codex y abro una aplicación, descubro que Codex ya ha completado silenciosamente un flujo de trabajo en segundo plano.
Dependiendo de qué aplicaciones tengas instaladas y autorizadas en tu ordenador, estos objetos de operación pueden incluir Spotify, Xcode, System Settings, el simulador de iOS, o incluso controlar tu iPhone mediante iPhone Mirroring. También puede cambiar entre múltiples aplicaciones, manejando flujos de trabajo que abarcan diferentes apps.
Úsalo cuando la tarea dependa de:
Aplicaciones de escritorio nativas, como Spotify o apps financieras;
El simulador de iOS, iPhone Mirroring, u otros procesos que solo se puedan operar mediante interfaz gráfica;
Configuraciones del sistema o de aplicaciones;
Fuentes de datos sin plugins o API;
Flujos de trabajo que requieran cambiar entre múltiples aplicaciones;
El último paso operativo que falte en una integración estructurada.
Instalación: Abre Settings > Computer Use en Codex y haz clic en Install.
Activación: Menciona @Computer o pídele explícitamente a Codex que use Computer Use. Con la mejora de las capacidades del modelo, en el futuro también lo invocará automáticamente cuando sea necesario.
Puedes probar primero algunos ejemplos:
Mi ejemplo favorito comenzó cuando me robaron un paquete. Amazon me dijo que tendría que esperar unos 25 minutos para hablar con el servicio de atención al cliente. Le di un hilo de Codex a Computer Use para que revisara la ventana de chat cada cinco minutos, y cuando apareciera el agente, cambiara a revisar cada minuto e intentara conseguirme el reembolso. Cuando volví de ducharme, el reembolso ya estaba hecho.
También uso Computer Use como el "último kilómetro" en flujos de trabajo estructurados. En un vídeo de lanzamiento, Codex podía leer comentarios de Slack, modificar el código y renderizar un nuevo vídeo, pero en ese momento la integración de Slack en ese hilo no podía subir archivos. Así que Computer Use hizo clic en Add file, completando ese paso faltante.
También es la que tiene los límites de confianza más amplios. Dale solo una aplicación o proceso específico cada vez. Mantén cerradas las aplicaciones sensibles cuando no sean parte de la tarea; revisa cuidadosamente los pop-ups de permisos; para cambios relacionados con finanzas, cuentas, pagos, credenciales, privacidad y seguridad del sistema, es mejor supervisar en persona.
Usa @Chrome para manejar múltiples pestañas y estado de inicio de sesión
La extensión de Chrome para Codex permite a Codex acceder a tu estado de Chrome ya iniciado. Úsala cuando la tarea dependa de una cuenta, cookies, perfiles del navegador o pestañas que ya tengas abiertas y autenticadas.
Esta interfaz de operación es adecuada para trabajar en herramientas como:
Gmail o LinkedIn;
Salesforce o paneles de servicio al cliente;
Paneles de control internos;
Investigaciones que requieran inicio de sesión en múltiples sitios web;
Formularios que dependan de tu cuenta o extensiones del navegador.
Instalación: Abre Plugins en Codex, añade Chrome y sigue el proceso de configuración. Codex te guiará para instalar la extensión Codex Chrome y aprobar los permisos de Chrome. Cuando la extensión muestre Connected, inicia un nuevo hilo.
Activación: Menciona @Chrome o pídele explícitamente a Codex que use tu navegador Chrome ya iniciado:
Las tareas de Chrome se ejecutarán en grupos de pestañas, lo que ayuda a mantener juntas las pestañas relacionadas con un hilo de Codex. A diferencia del navegador integrado, esta interfaz lleva consigo la identidad de tu navegador. Esto la hace más potente y también más sensible.
Otra ventaja principal es el control de múltiples pestañas. Chrome puede hacer que varias pestañas se asocien a la misma tarea, leyendo contexto en una página, contrastando información en otra, y continuando el flujo de trabajo en una tercera. Computer Use también puede controlar el navegador visualmente, pero Chrome entenderá la tarea como un flujo de trabajo del navegador, no como una serie de operaciones con coordenadas de pantalla.
Recientemente, en un hilo, le di a Codex una pestaña ya abierta de Strudel Composer y le pedí que hiciera la música más interesante. Chrome le dio la pestaña seleccionada y las herramientas WebMCP que esa página exponía. Codex revisó la estructura de la pieza, reescribió la armonía y toda la forma de cuatro minutos, modificó el tempo, guardó la pista y la dejó reproduciéndose. No necesitó buscar visualmente cada control en la interfaz porque Chrome puede combinar el contexto de la pestaña con las capacidades estructuradas proporcionadas por la página.
También lo uso para mantener un hilo de Twitter a largo plazo. La instrucción general es:
Lo interesante no es que Codex pueda abrir Twitter, sino que este hilo puede volver repetidamente al mismo entorno de trabajo ya iniciado, conectar el contenido encontrado a archivos locales y dejar un resultado que yo pueda revisar.
Aquí los límites de confianza son importantes. Los sitios web pueden interpretar los clics de Codex, el envío de formularios y los mensajes como acciones realizadas por ti. El propio contenido de la página es una entrada no confiable. Separa claramente los pasos de mayor consecuencia: la investigación, navegación y redacción pueden automatizarse; el envío, publicación, compra o confirmación requieren tu revisión previa.
Si toda la tarea se completa dentro del navegador, prioriza Chrome sobre Computer Use. Chrome tiene el contexto nativo del navegador necesario para este tipo de tareas, sin extender el acceso a todo el escritorio.
Usa el @Browser integrado en la aplicación para trabajar en el sitio web que estás desarrollando
El navegador integrado en la aplicación existe dentro del hilo de Codex. Tú y Codex compartís la misma página renderizada, por lo que es especialmente adecuado para construir y depurar aplicaciones web.
Normalmente comienzo aquí para manejar:
Servidores de desarrollo locales;
Páginas de vista previa basadas en archivos;
Páginas públicas que no requieren inicio de sesión;
Reproducir bugs visuales;
Comprobar maquetación responsive;
Dejar comentarios de diseño sobre elementos de la página.
Su restricción más importante es el aislamiento. El navegador integrado no usa tu perfil normal del navegador, cookies, extensiones, sesiones iniciadas o pestañas existentes. Cuando la tarea necesita identidad de cuenta, esto es una limitación; pero cuando la tarea no la necesita, es un límite útil.
Configuración: Abre Plugins en Codex, añade el plugin Browser y actívalo.
Activación: Menciona @Browser en el prompt o pídele explícitamente a Codex que use el navegador integrado:
Esto crea un ciclo de feedback muy ajustado: Codex puede editar código, operar la página, comprobar el estado de renderizado, hacer capturas de pantalla y luego volver a verificar el mismo flujo después de las correcciones.
Mi parte favorita son las anotaciones. Cuando reviso una aplicación local, puedo hacer clic directamente en un elemento, o seleccionar un área y dejar un comentario. Los controles de estilo también me permiten previsualizar y comentar texto, fuentes, espaciado y color con más precisión. Suele combinarlo con entrada por voz y guiado de procesos: reviso la página, dejo comentarios y sigo haciendo cola para añadir más opiniones mientras Codex procesa el feedback actual. La página misma se convierte en la especificación.
Esto es especialmente útil para trabajo de diseño. A menudo le pido a Codex que organice una idea, un paquete de investigación o un estado del proyecto en un único archivo index.html, y luego lo abra con el navegador integrado. En lugar de intentar describir todo el diseño en otro prompt, puedo anotar directamente en la página real: "Esta jerarquía está al revés", "Esto no debería parecerse tanto a una tarjeta aquí", "Estos controles necesitan más espacio" o "Usa esta proporción de tamaño de fuente en todo el sitio". Codex recibe los comentarios con capturas de pantalla y contexto de los elementos relevantes, modifica el archivo y luego vuelve a abrir la misma página para la siguiente ronda.
Este ciclo se siente más parecido a trabajar con un diseñador en el mismo lienzo, que a intercambiar capturas de pantalla y descripciones de texto.
El navegador integrado también es un buen punto de partida para flujos de trabajo híbridos. En otro hilo, usé el navegador integrado para abrir una publicación de X y pedirle a Codex que investigara la discusión relacionada. La página visible lo ayudó a confirmar a qué publicación me refería; luego Codex cambió a la CLI de Twitter y recuperó 38 respuestas, incluyendo respuestas anidadas que la vista del navegador ocultaba. Esta es la puesta en práctica del principio de "usar la interfaz de operación más limitada": usar el navegador para confirmar el contexto en pantalla, y luego usar herramientas estructuradas para una recuperación más profunda.
Aquí también hay compensaciones. El aislamiento del navegador integrado lo convierte en una gran interfaz de desarrollo, pero también significa que no es adecuado para manejar inicio de sesión de Google, passkeys o sitios web que dependan de extensiones del navegador. Cuando la identidad es importante, cambia a Chrome.
Appshots
Appshot no es una cuarta forma de que Codex controle el ordenador. Es una forma de dirigir la atención de Codex hacia el contexto que tienes delante.
En Mac, pulsa dos veces la tecla CMD para capturar la ventana más reciente. Codex adjuntará una imagen y todo el texto disponible al hilo. Puedes hacer un Appshot de un error, un correo, un diseño, un panel de configuración o un formulario desconocido, y luego simplemente decir:
Este es el modelo mental que me parece más fácil de recordar: Appshots es la forma que usas para señalar algo en tu ordenador; Browser, Chrome y Computer Use son las formas en que Codex actúa.
Actualmente, Appshots se crean mediante la aplicación Codex en macOS. Captura la ventana del frente, no todo el escritorio. Esto la convierte en una forma muy útil: puedes proporcionar contexto enfocado sin conceder control sobre esa aplicación.
Cómo seguir estos avances
Estas interfaces de operación cambian rápidamente. Si quieres obtener detalles prácticos en lugar de esperar un gran resumen de lanzamiento:
Sigue a Ari Weinstein (@AriX) para Computer Use y Appshots;
Sigue a James Sun (@JamesZmSun) para contenido relacionado con Browser;
Sigue a Andrew Ambrosino (@ajambrosino) para lanzamientos de la aplicación Codex y la narrativa más amplia del producto de escritorio;
Sigue a OpenAI Developers (@OpenAIDevs) para noticias más generales sobre Codex y la OpenAI Platform.






