Comment Codex utilise-t-il l'ordinateur ? Trois points d'entrée et les limites d'autorisation
L'article présente les trois méthodes utilisées par Codex pour interagir avec un ordinateur : Computer Use, l'extension Chrome et le navigateur intégré à l'application. Chaque méthode correspond à des scénarios, des périmètres d'autorisation et des niveaux de confiance distincts.
Computer Use offre la couverture la plus large, permettant de contrôler les applications natives macOS/Windows, les paramètres système et même de gérer des flux de travail multi-applications via l'interface graphique. Il est adapté aux processus sans API, mais est plus lent et a le périmètre de confiance le plus large. L'extension Chrome donne accès à l'état de connexion, aux cookies et aux onglets du navigateur, idéale pour les tâches liées à Gmail, LinkedIn, Salesforce ou pour des recherches nécessitant une authentification. Le navigateur intégré est isolé, sans état de connexion, et convient parfaitement au développement et au débogage web local (serveurs locaux, bugs visuels, maquettes).
Le principe fondamental est de choisir l'interface la plus étroite, sécurisée et structurée possible pour une tâche donnée. Il faut privilégier les plugins ou MCP, utiliser le navigateur intégré pour le développement web, recourir à l'extension Chrome lorsque l'identité de l'utilisateur est requise, et ne recourir à Computer Use qu'en dernier recours pour les tâches GUI non couvertes par des outils structurés.
Appshots est présenté comme un outil complémentaire permettant de "montrer" le contexte de l'écran à Codex pour l'input, tandis que les trois autres méthodes concernent l'action (output). Cette approche stratifiée illustre la clé de la productisation des agents IA : restreindre les permissions, clarifier les frontières et laisser à l'utilisateur le contrôle des actions critiques.
marsbitIl y a 41 mins