¿Cómo usa Codex el ordenador? Tres puntos de entrada y límites de permisos

marsbitPublicado a 2026-06-21Actualizado a 2026-06-21

Resumen

Este artículo explica las tres formas en que Codex interactúa con el entorno externo: Uso del Ordenador, la extensión de Chrome y el Navegador integrado en la aplicación. Cada una aborda la tarea de "usar el ordenador", pero se adapta a diferentes escenarios, niveles de permisos y confianza. * **Uso del Ordenador (@Computer)**: Es el de mayor alcance, permitiendo operar aplicaciones nativas de macOS/Windows, configuraciones del sistema, el simulador de iOS, e incluso flujos de trabajo entre múltiples apps. Es ideal para procesos GUI sin API o herramientas estructuradas, pero es más lento y tiene los permisos más amplios. Se debe usar como último recurso cuando las herramientas estructuradas no cubren la tarea. * **Extensión de Chrome (@Chrome)**: Permite acceder al estado ya iniciado de sesión en Chrome, incluyendo cookies, perfiles y pestañas abiertas. Es óptimo para tareas que dependen de identidad, como trabajar en Gmail, LinkedIn, Salesforce, paneles internos o investigación que requiera autenticación en múltiples sitios. Ofrece control multi-pestaña y un contexto nativo del navegador, pero acciones como enviar o publicar requieren supervisión. * **Navegador integrado (@Browser)**: Es un navegador aislado dentro del hilo de Codex, sin el estado de inicio de sesión o cookies del navegador principal. Es ideal para desarrollo y depuración web, como trabajar con servidores locales, reproducir bugs visuales, verificar diseños responsivos o dar retroalimentación de diseñ...

Nota del editor: Este artículo desglosa las tres formas en que Codex puede operar en el entorno externo: Computer Use, la extensión de Chrome y el Navegador integrado en la aplicación. Aunque los tres parecen resolver el problema de "permitir que Codex use el ordenador", se corresponden con diferentes escenarios de tareas, límites de permisos y niveles de confianza.

De ellos, Computer Use tiene el alcance más amplio, pudiendo operar directamente aplicaciones nativas autorizadas en macOS/Windows, configuraciones del sistema, el simulador de iOS, e incluso completar flujos de trabajo que abarquen múltiples aplicaciones. Es adecuado para flujos GUI que no tienen soporte de API, plugins o herramientas estructuradas, pero el precio es una velocidad más lenta y unos límites de permisos también más amplios. La extensión de Chrome es más adecuada para tareas que dependen del estado de inicio de sesión, cookies, múltiples pestañas e identidad del navegador, como Gmail, LinkedIn, Salesforce, paneles internos, o investigaciones que requieran inicio de sesión en múltiples sitios web. El Navegador integrado está más orientado a escenarios de desarrollo y depuración, especialmente apropiado para servicios locales, bugs visuales, maquetación responsive y anotaciones de diseño; no hereda el estado de inicio de sesión del navegador normal del usuario, sus capacidades son más limitadas, pero su aislamiento también es mayor.

La conclusión principal del artículo es que Codex no tiene solo una forma de "usar el ordenador"; lo realmente importante es elegir la interfaz de operación más limitada, segura y estructurada según la tarea. Si se puede usar un plugin o MCP, no se debería recurrir primero al control visual; si la tarea solo implica desarrollo web, se debe priorizar el Navegador integrado; cuando se necesite la identidad del navegador y el estado de inicio de sesión del usuario, se cambia a Chrome; solo cuando las herramientas estructuradas no puedan cubrir la tarea y esta dependa necesariamente de la interfaz gráfica de escritorio, Computer Use es la última opción.

Appshots no es una cuarta forma de controlar el ordenador, sino una herramienta para "mostrarle a Codex" el contexto actual de la pantalla. Resuelve el problema de entrada de contexto, mientras que Browser, Chrome y Computer Use resuelven el problema de la acción. Visto en conjunto, esta estratificación revela en realidad una clave para la creación de productos de AI Agent: no se trata de dar al modelo permisos ilimitados, sino de restringir continuamente los permisos, definir límites claros en tareas concretas y permitir que el usuario conserve el derecho de revisar acciones críticas.

A continuación, el texto original:

Codex puede usar el ordenador de tres formas: Computer Use, la extensión de Chrome y el navegador integrado en la aplicación.

Hay cierto solapamiento entre ellas, justo lo suficiente como para generar confusión.

Después de leer este artículo, sabrás cómo instalar y activar estas tres formas, en qué escenarios usar cada una, cómo Appshots y el modo Desarrollador las conectan, y qué escribir en AGENTS.md para que Codex pueda elegir automáticamente la interfaz de operación adecuada.

La versión simplificada es:

Dicho esto, siempre que sea posible, se debe priorizar el uso de plugins o MCP. Por ejemplo, el plugin de Slack puede buscar un hilo con más precisión que hacer clics por todas partes en Slack; las operaciones generadas por el plugin de GitHub también son más fáciles de verificar que hacer que Codex controle la página web. El control visual es más adecuado donde las herramientas estructuradas llegan a sus límites.

Todo puede ser @Computer

Computer Use es la interfaz de operación con el alcance más amplio de estas tres. Permite a Codex ver y operar la interfaz gráfica en macOS y Windows, incluyendo ventanas, menús, entrada por teclado y el portapapeles en las aplicaciones que autorices.

También suele ser la más lenta. Los plugins estructurados pueden llamar directamente a la API; Computer Use necesita observar la interfaz, decidir dónde hacer clic, esperar la respuesta de la aplicación y luego verificar el siguiente estado. Este ciclo visual consume tiempo, pero también significa que Codex puede operar aplicaciones que no tienen ninguna API disponible.

En macOS, lento no necesariamente significa que te moleste. Computer Use puede operar aplicaciones autorizadas en segundo plano, mientras tú sigues usando otras partes del ordenador. Muchas veces, cuando uso Codex y abro una aplicación, descubro que Codex ya ha completado silenciosamente un flujo de trabajo en segundo plano.

Dependiendo de qué aplicaciones tengas instaladas y autorizadas en tu ordenador, estos objetos de operación pueden incluir Spotify, Xcode, System Settings, el simulador de iOS, o incluso controlar tu iPhone mediante iPhone Mirroring. También puede cambiar entre múltiples aplicaciones, manejando flujos de trabajo que abarcan diferentes apps.

Úsalo cuando la tarea dependa de:

Aplicaciones de escritorio nativas, como Spotify o apps financieras;

El simulador de iOS, iPhone Mirroring, u otros procesos que solo se puedan operar mediante interfaz gráfica;

Configuraciones del sistema o de aplicaciones;

Fuentes de datos sin plugins o API;

Flujos de trabajo que requieran cambiar entre múltiples aplicaciones;

El último paso operativo que falte en una integración estructurada.

Instalación: Abre Settings > Computer Use en Codex y haz clic en Install.

Activación: Menciona @Computer o pídele explícitamente a Codex que use Computer Use. Con la mejora de las capacidades del modelo, en el futuro también lo invocará automáticamente cuando sea necesario.

Puedes probar primero algunos ejemplos:

Mi ejemplo favorito comenzó cuando me robaron un paquete. Amazon me dijo que tendría que esperar unos 25 minutos para hablar con el servicio de atención al cliente. Le di un hilo de Codex a Computer Use para que revisara la ventana de chat cada cinco minutos, y cuando apareciera el agente, cambiara a revisar cada minuto e intentara conseguirme el reembolso. Cuando volví de ducharme, el reembolso ya estaba hecho.

También uso Computer Use como el "último kilómetro" en flujos de trabajo estructurados. En un vídeo de lanzamiento, Codex podía leer comentarios de Slack, modificar el código y renderizar un nuevo vídeo, pero en ese momento la integración de Slack en ese hilo no podía subir archivos. Así que Computer Use hizo clic en Add file, completando ese paso faltante.

También es la que tiene los límites de confianza más amplios. Dale solo una aplicación o proceso específico cada vez. Mantén cerradas las aplicaciones sensibles cuando no sean parte de la tarea; revisa cuidadosamente los pop-ups de permisos; para cambios relacionados con finanzas, cuentas, pagos, credenciales, privacidad y seguridad del sistema, es mejor supervisar en persona.

Usa @Chrome para manejar múltiples pestañas y estado de inicio de sesión

La extensión de Chrome para Codex permite a Codex acceder a tu estado de Chrome ya iniciado. Úsala cuando la tarea dependa de una cuenta, cookies, perfiles del navegador o pestañas que ya tengas abiertas y autenticadas.

Esta interfaz de operación es adecuada para trabajar en herramientas como:

Gmail o LinkedIn;

Salesforce o paneles de servicio al cliente;

Paneles de control internos;

Investigaciones que requieran inicio de sesión en múltiples sitios web;

Formularios que dependan de tu cuenta o extensiones del navegador.

Instalación: Abre Plugins en Codex, añade Chrome y sigue el proceso de configuración. Codex te guiará para instalar la extensión Codex Chrome y aprobar los permisos de Chrome. Cuando la extensión muestre Connected, inicia un nuevo hilo.

Activación: Menciona @Chrome o pídele explícitamente a Codex que use tu navegador Chrome ya iniciado:

Las tareas de Chrome se ejecutarán en grupos de pestañas, lo que ayuda a mantener juntas las pestañas relacionadas con un hilo de Codex. A diferencia del navegador integrado, esta interfaz lleva consigo la identidad de tu navegador. Esto la hace más potente y también más sensible.

Otra ventaja principal es el control de múltiples pestañas. Chrome puede hacer que varias pestañas se asocien a la misma tarea, leyendo contexto en una página, contrastando información en otra, y continuando el flujo de trabajo en una tercera. Computer Use también puede controlar el navegador visualmente, pero Chrome entenderá la tarea como un flujo de trabajo del navegador, no como una serie de operaciones con coordenadas de pantalla.

Recientemente, en un hilo, le di a Codex una pestaña ya abierta de Strudel Composer y le pedí que hiciera la música más interesante. Chrome le dio la pestaña seleccionada y las herramientas WebMCP que esa página exponía. Codex revisó la estructura de la pieza, reescribió la armonía y toda la forma de cuatro minutos, modificó el tempo, guardó la pista y la dejó reproduciéndose. No necesitó buscar visualmente cada control en la interfaz porque Chrome puede combinar el contexto de la pestaña con las capacidades estructuradas proporcionadas por la página.

También lo uso para mantener un hilo de Twitter a largo plazo. La instrucción general es:

Lo interesante no es que Codex pueda abrir Twitter, sino que este hilo puede volver repetidamente al mismo entorno de trabajo ya iniciado, conectar el contenido encontrado a archivos locales y dejar un resultado que yo pueda revisar.

Aquí los límites de confianza son importantes. Los sitios web pueden interpretar los clics de Codex, el envío de formularios y los mensajes como acciones realizadas por ti. El propio contenido de la página es una entrada no confiable. Separa claramente los pasos de mayor consecuencia: la investigación, navegación y redacción pueden automatizarse; el envío, publicación, compra o confirmación requieren tu revisión previa.

Si toda la tarea se completa dentro del navegador, prioriza Chrome sobre Computer Use. Chrome tiene el contexto nativo del navegador necesario para este tipo de tareas, sin extender el acceso a todo el escritorio.

Usa el @Browser integrado en la aplicación para trabajar en el sitio web que estás desarrollando

El navegador integrado en la aplicación existe dentro del hilo de Codex. Tú y Codex compartís la misma página renderizada, por lo que es especialmente adecuado para construir y depurar aplicaciones web.

Normalmente comienzo aquí para manejar:

Servidores de desarrollo locales;

Páginas de vista previa basadas en archivos;

Páginas públicas que no requieren inicio de sesión;

Reproducir bugs visuales;

Comprobar maquetación responsive;

Dejar comentarios de diseño sobre elementos de la página.

Su restricción más importante es el aislamiento. El navegador integrado no usa tu perfil normal del navegador, cookies, extensiones, sesiones iniciadas o pestañas existentes. Cuando la tarea necesita identidad de cuenta, esto es una limitación; pero cuando la tarea no la necesita, es un límite útil.

Configuración: Abre Plugins en Codex, añade el plugin Browser y actívalo.

Activación: Menciona @Browser en el prompt o pídele explícitamente a Codex que use el navegador integrado:

Esto crea un ciclo de feedback muy ajustado: Codex puede editar código, operar la página, comprobar el estado de renderizado, hacer capturas de pantalla y luego volver a verificar el mismo flujo después de las correcciones.

Mi parte favorita son las anotaciones. Cuando reviso una aplicación local, puedo hacer clic directamente en un elemento, o seleccionar un área y dejar un comentario. Los controles de estilo también me permiten previsualizar y comentar texto, fuentes, espaciado y color con más precisión. Suele combinarlo con entrada por voz y guiado de procesos: reviso la página, dejo comentarios y sigo haciendo cola para añadir más opiniones mientras Codex procesa el feedback actual. La página misma se convierte en la especificación.

Esto es especialmente útil para trabajo de diseño. A menudo le pido a Codex que organice una idea, un paquete de investigación o un estado del proyecto en un único archivo index.html, y luego lo abra con el navegador integrado. En lugar de intentar describir todo el diseño en otro prompt, puedo anotar directamente en la página real: "Esta jerarquía está al revés", "Esto no debería parecerse tanto a una tarjeta aquí", "Estos controles necesitan más espacio" o "Usa esta proporción de tamaño de fuente en todo el sitio". Codex recibe los comentarios con capturas de pantalla y contexto de los elementos relevantes, modifica el archivo y luego vuelve a abrir la misma página para la siguiente ronda.

Este ciclo se siente más parecido a trabajar con un diseñador en el mismo lienzo, que a intercambiar capturas de pantalla y descripciones de texto.

El navegador integrado también es un buen punto de partida para flujos de trabajo híbridos. En otro hilo, usé el navegador integrado para abrir una publicación de X y pedirle a Codex que investigara la discusión relacionada. La página visible lo ayudó a confirmar a qué publicación me refería; luego Codex cambió a la CLI de Twitter y recuperó 38 respuestas, incluyendo respuestas anidadas que la vista del navegador ocultaba. Esta es la puesta en práctica del principio de "usar la interfaz de operación más limitada": usar el navegador para confirmar el contexto en pantalla, y luego usar herramientas estructuradas para una recuperación más profunda.

Aquí también hay compensaciones. El aislamiento del navegador integrado lo convierte en una gran interfaz de desarrollo, pero también significa que no es adecuado para manejar inicio de sesión de Google, passkeys o sitios web que dependan de extensiones del navegador. Cuando la identidad es importante, cambia a Chrome.

Appshots

Appshot no es una cuarta forma de que Codex controle el ordenador. Es una forma de dirigir la atención de Codex hacia el contexto que tienes delante.

En Mac, pulsa dos veces la tecla CMD para capturar la ventana más reciente. Codex adjuntará una imagen y todo el texto disponible al hilo. Puedes hacer un Appshot de un error, un correo, un diseño, un panel de configuración o un formulario desconocido, y luego simplemente decir:

Este es el modelo mental que me parece más fácil de recordar: Appshots es la forma que usas para señalar algo en tu ordenador; Browser, Chrome y Computer Use son las formas en que Codex actúa.

Actualmente, Appshots se crean mediante la aplicación Codex en macOS. Captura la ventana del frente, no todo el escritorio. Esto la convierte en una forma muy útil: puedes proporcionar contexto enfocado sin conceder control sobre esa aplicación.

Cómo seguir estos avances

Estas interfaces de operación cambian rápidamente. Si quieres obtener detalles prácticos en lugar de esperar un gran resumen de lanzamiento:

Sigue a Ari Weinstein (@AriX) para Computer Use y Appshots;

Sigue a James Sun (@JamesZmSun) para contenido relacionado con Browser;

Sigue a Andrew Ambrosino (@ajambrosino) para lanzamientos de la aplicación Codex y la narrativa más amplia del producto de escritorio;

Sigue a OpenAI Developers (@OpenAIDevs) para noticias más generales sobre Codex y la OpenAI Platform.

Preguntas relacionadas

Q¿Cuáles son las tres formas en que Codex puede operar el entorno externo, según el artículo?

ALas tres formas son Computer Use (Uso de Computadora), la extensión de Chrome (Chrome) y el navegador interno de la aplicación (Browser).

Q¿Cuál de las tres formas tiene el alcance más amplio y el límite de permisos más amplio, pero también es la más lenta?

AEs Computer Use (Uso de Computadora). Puede operar aplicaciones nativas de macOS/Windows, configuraciones del sistema e incluso flujos de trabajo que abarcan múltiples aplicaciones, pero su ciclo de reconocimiento visual lo hace más lento y sus límites de confianza son los más amplios.

Q¿Cuándo debería usarse la extensión de Chrome de Codex en lugar de Computer Use o el navegador interno?

ADebería usarse cuando la tarea dependa del estado de inicio de sesión, cookies, perfiles del navegador o pestañas ya autenticadas del usuario, como en Gmail, LinkedIn, Salesforce, paneles internos o investigación que requiera estar logueado en múltiples sitios web.

Q¿Qué es Appshot y qué problema resuelve en relación con las formas de operar de Codex?

AAppshot no es una forma de controlar la computadora, sino una herramienta para proporcionar contexto visual a Codex. Captura la ventana frontal actual en macOS (con doble clic en CMD) y la añade al hilo, permitiendo 'señalar' algo en la pantalla para que Codex lo analice, sin otorgar permiso de control sobre esa aplicación.

QSegún el principio central del artículo, ¿qué se debe priorizar al elegir cómo hace algo Codex en la computadora?

ASe debe priorizar la elección de la interfaz de operación más estrecha, segura y estructurada posible para la tarea específica. Siempre que sea posible, usar complementos o MCP en lugar de control visual; para desarrollo web, priorizar el navegador interno; y usar Computer Use solo como último recurso para flujos GUI que no puedan cubrirse con herramientas estructuradas.

Lecturas Relacionadas

SpaceX, IA y XRP: ¿Por qué la próxima transferencia de riqueza podría ser diferente?

La atención generada por la posible salida a bolsa de SpaceX refleja una tendencia más amplia: el capital está empezando a dirigirse hacia infraestructuras que podrían definir el próximo sistema económico global. Este nuevo ciclo de inversión podría abarcar infraestructura espacial, redes de satélites, centros de datos, inteligencia artificial y sistemas de comunicación avanzados. Todas estas áreas requieren grandes cantidades de materias primas, lo que sugiere el posible inicio de un superciclo estructural de commodities, impulsado por la demanda industrial y tecnológica, más que por el consumo. En este contexto, tecnologías como blockchain podrían evolucionar desde un enfoque especulativo hacia un papel de infraestructura de liquidación en tiempo real. Activos digitales centrados en pagos e interoperabilidad, como XRP y XLM, ganarían importancia para facilitar transacciones transfronterizas, pagos entre máquinas o la gestión de activos tokenizados. La creciente convergencia entre la IA y blockchain es clave, ya que los agentes de IA necesitarán infraestructuras capaces de ejecutar pagos y liquidar transacciones autónomamente. La clarificación regulatoria en mercados como EE.UU. se presenta como un catalizador esencial para una mayor adopción institucional de estas tecnologías. El futuro podría consistir en una fusión en la que la IA genere actividad económica y las redes blockchain proporcionen la capa de liquidación subyacente. En conclusión, la fusión de la infraestructura espacial, la IA, blockchain, los commodities y marcos regulatorios más claros sugiere una transición hacia un nuevo ciclo económico basado en infraestructura. La cuestión principal ya no es si estas tecnologías convergerán, sino a qué velocidad y qué redes se convertirán en la columna vertebral de esta próxima fase.

marsbitHace 18 min(s)

SpaceX, IA y XRP: ¿Por qué la próxima transferencia de riqueza podría ser diferente?

marsbitHace 18 min(s)

Cuenta regresiva para GPT-5.6: Abandona la fantasía de la API única, incluso la iteración más rápida del poder de cómputo no puede competir con una sola regulación

A mediados de junio, tres eventos aparentemente inconexos —las restricciones regulatorias a Claude Fable 5, el lanzamiento en código abierto de GLM-5.2 y la filtración del lanzamiento inminente de GPT-5.6— marcan un punto de inflexión para la industria global de IA. Estos cambios reflejan una reconfiguración fundamental: la "disponibilidad" supera en importancia a la "vanguardia técnica", dando paso a un sistema dual de modelos cerrados controlados y de código abierto local. La retirada de Fable 72 horas después de su lanzamiento, por restricciones de exportación estadounidenses dirigidas a ciudadanos no estadounidenses, evidencia que el avance técnico ahora conlleva un riesgo regulatorio equivalente. Esto crea una vulnerabilidad para las empresas que dependen de APIs cerradas. Como contrapeso, el modelo de código abierto GLM-5.2 de Zhipu AI, compatible con plataformas de semiconductores locales y con un rendimiento cercano a los modelos cerrados líderes, ofrece una alternativa estable y de menor costo. Su despliegue local se convierte en una estrategia de redundancia crítica para la continuidad del negocio ante riesgos geopolíticos. Mientras tanto, OpenAI se prepara para lanzar GPT-5.6, desplazando su foco de la inteligencia lingüística a la "inteligencia espacial" o modelos mundiales, un campo que requiere una inmensa potencia de cálculo. Este movimiento busca establecer una nueva ventaja competitiva en simulaciones industriales, robótica y diseño 3D. En conclusión, la lógica de la cadena de suministro de modelos grandes ha cambiado. La evaluación crítica para las empresas ya no es solo el rendimiento, sino una combinación de capacidad técnica, cumplimiento normativo y estabilidad de acceso. Para los desarrolladores, depender exclusivamente de una API cerrada supone un riesgo inaceptable. Diseñar arquitecturas "agnósticas al modelo" que permitan cambiar rápidamente a alternativas locales y de código abierto se ha convertido en un requisito básico para garantizar la continuidad del negocio.

marsbitHace 1 hora(s)

Cuenta regresiva para GPT-5.6: Abandona la fantasía de la API única, incluso la iteración más rápida del poder de cómputo no puede competir con una sola regulación

marsbitHace 1 hora(s)

Fuera del campo: el juego lucrativo que rodea la Copa del Mundo

Fuera del campo: El juego especulativo alrededor del Mundial La Copa del Mundo no es solo un festival para los aficionados, sino también una rara ventana global de especulación. Concentra atención, emoción e identidad en poco más de un mes, generando un ecosistema de apuestas que va más allá del fútbol. Los mercados de predicción, como Polymarket y Kalshi, han irrumpido con fuerza, atrayendo volúmenes de trading de miles de millones con contratos sobre el campeón o resultados. Aunque las casas de apuestas tradicionales siguen siendo el pilar principal, estimándose que las apuestas legales en EE.UU. superarán los 28.000 millones de dólares. En bolsa, aparecen "acciones temáticas". En Corea, empresas de pollo frito subieron antes de los partidos de su selección, mostrando cómo el mercado descuenta el consumo impulsado por los aficionados. El reventa de entradas se ha convertido en un mercado especulativo complejo. Los precios fluctúan salvajemente según los equipos y estrellas, y hay incluso ventas en corto en plataformas secundarias antes de poseer los tickets. Los artículos de colección, como las pegatinas Panini o camisetas limitadas, también ven sus precios dispararse por su escasez y valor emocional. El mundo de las criptomonedas no se queda atrás, con miles de memecoins no oficiales relacionados con el Mundial que experimentan bombas y desplomes extremos, a menudo siendo esquemas de "pump and dump". Por último, hay quien especula con la propia demanda de información, creando herramientas para rastrear entradas o vendiendo suscripciones con consejos de apuestas. El verdadero ganador no siempre es quien acierta el resultado, sino quien entiende cómo fluye la atención y la especulación alrededor del evento. Cuando termina el torneo, otro vasto red de transacciones ya ha hecho su propio结算.

marsbitHace 2 hora(s)

Fuera del campo: el juego lucrativo que rodea la Copa del Mundo

marsbitHace 2 hora(s)

Trading

Spot
Futuros
活动图片