Catatan Redaksi: Artikel ini menyusun tiga pintu masuk Codex untuk mengoperasikan lingkungan eksternal: Computer Use, Ekstensi Chrome, dan Browser dalam aplikasi. Ketiganya tampaknya memecahkan masalah "membuat Codex menggunakan komputer", tetapi sebenarnya merujuk pada skenario tugas, batasan izin, dan tingkat kepercayaan yang berbeda.
Di antaranya, Computer Use memiliki cakupan terluas, dapat langsung mengoperasikan aplikasi native, pengaturan sistem, simulator iOS, yang sudah diizinkan di macOS/Windows, bahkan melintasi beberapa aplikasi untuk menyelesaikan alur kerja. Cocok untuk alur GUI yang tidak didukung oleh API, plugin, atau alat terstruktur, namun konsekuensinya adalah kecepatan yang lebih lambat dan batasan izin yang paling luas. Ekstensi Chrome cocok untuk tugas yang bergantung pada status login, Cookies, multi-tab, dan identitas browser, seperti Gmail, LinkedIn, Salesforce, dashboard internal, atau penelitian yang sudah login di beberapa situs web. Browser dalam aplikasi lebih condong ke skenario pengembangan dan debug, terutama cocok untuk layanan lokal, bug visual, tata letak responsif, dan anotasi desain; ia tidak mewarisi status login browser normal pengguna, kemampuannya lebih sempit, namun isolasinya juga lebih kuat.
Penilaian inti artikel ini adalah, Codex tidak hanya memiliki satu cara "menggunakan komputer". Yang penting adalah memilih antarmuka operasi yang paling sempit, paling aman, dan paling terstruktur sesuai dengan tugas. Jika dapat menggunakan plugin atau MCP, jangan terlebih dahulu menggunakan kendali visual; jika tugas hanya melibatkan pengembangan web, prioritaskan Browser dalam aplikasi; ketika memerlukan identitas browser dan status login pengguna, baru beralih ke Chrome; hanya ketika alat terstruktur tidak dapat mencakup, dan tugas harus bergantung pada antarmuka grafis desktop, maka Computer Use adalah pilihan terakhir.
Appshots bukan cara keempat untuk mengendalikan komputer, melainkan alat untuk "menunjukkan" konteks layar saat ini kepada Codex. Ini memecahkan masalah input konteks, sedangkan Browser, Chrome, dan Computer Use memecahkan masalah tindakan. Secara keseluruhan, stratifikasi ini sebenarnya mengungkapkan kunci produk AI Agent: bukan memberi model izin tanpa batas, tetapi terus mempersempit izin dan memperjelas batasan dalam tugas spesifik, serta mempertahankan hak pengguna untuk meninjau tindakan kritis.
Berikut adalah teks asli:
Codex menggunakan komputer dengan tiga cara: Computer Use, Ekstensi Chrome, dan Browser dalam aplikasi.
Ada beberapa tumpang tindih di antara mereka, yang cukup untuk membingungkan.
Setelah membaca artikel ini, Anda akan tahu cara menginstal dan memicu ketiga cara ini, masing-masing dalam skenario apa yang harus digunakan, bagaimana Appshots dan Developer mode menghubungkannya, serta apa yang harus ditulis di AGENTS.md agar Codex dapat memilih antarmuka operasi yang tepat sendiri.
Versi sederhananya adalah:
Meskipun demikian, jika memungkinkan, prioritaskan penggunaan plugin atau MCP. Misalnya, plugin Slack dapat mencari thread dengan lebih akurat daripada mengklik-klik di Slack; operasi yang dihasilkan oleh plugin GitHub juga lebih mudah diperiksa daripada membiarkan Codex menggerakkan halaman web. Kendali visual paling cocok digunakan di tempat kemampuan alat terstruktur mencapai batasnya.
Semuanya Bisa Menjadi @Computer
Computer Use adalah antarmuka operasi dengan cakupan terluas di antara ketiganya. Ini memungkinkan Codex untuk melihat dan mengoperasikan antarmuka grafis di macOS dan Windows, termasuk jendela, menu, input keyboard, dan clipboard di aplikasi yang Anda izinkan.
Biasanya ini juga yang paling lambat. Plugin terstruktur dapat langsung memanggil API; Computer Use perlu mengamati antarmuka, menilai di mana harus mengklik, menunggu respons aplikasi, lalu memeriksa status selanjutnya. Lingkaran visual ini memakan waktu, tetapi juga berarti Codex dapat mengoperasikan aplikasi yang sama sekali tidak memiliki API yang tersedia.
Di macOS, lambat tidak selalu berarti mengganggu Anda. Computer Use dapat mengoperasikan aplikasi yang Anda izinkan di latar belakang, sementara Anda masih dapat terus menggunakan bagian lain komputer. Seringkali, saat saya membuka aplikasi tertentu saat menggunakan Codex, baru menyadari bahwa Codex telah menyelesaikan serangkaian alur kerja dengan tenang di latar belakang.
Tergantung pada aplikasi apa yang Anda instal dan izinkan di komputer Anda, objek operasi ini dapat mencakup Spotify, Xcode, System Settings, simulator iOS, bahkan mengontrol iPhone Anda dengan iPhone Mirroring. Ia juga dapat beralih di antara beberapa aplikasi, menangani alur kerja yang melintasi aplikasi yang berbeda.
Gunakan ketika tugas bergantung pada:
Aplikasi desktop native, seperti Spotify atau aplikasi keuangan;
Simulator iOS, iPhone Mirroring, atau alur lain yang hanya dapat dioperasikan melalui antarmuka grafis;
Pengaturan sistem atau aplikasi;
Sumber data yang tidak memiliki plugin atau API;
Alur kerja yang perlu beralih di antara beberapa aplikasi;
Langkah operasi terakhir yang hilang dalam suatu integrasi terstruktur.
Cara instal: Buka Settings > Computer Use di Codex, lalu klik Install.
Cara pemicu: Sebutkan @Computer, atau secara eksplisit minta Codex untuk menggunakan Computer Use. Seiring peningkatan kemampuan model, di masa depan ia juga akan memanggilnya sendiri ketika diperlukan.
Anda bisa mencoba beberapa contoh:
Salah satu contoh favorit saya, berawal dari paket yang dicuri. Amazon memberi tahu saya, perlu menunggu sekitar 25 menit untuk terhubung dengan layanan pelanggan. Saya memberikan thread Codex kepada Computer Use, memintanya untuk memeriksa jendela chat setiap lima menit, setelah CS muncul berubah menjadi setiap menit, dan berusaha membantu saya mendapatkan pengembalian dana. Setelah saya mandi dan kembali, pengembalian dana sudah selesai.
Saya juga menggunakan Computer Use sebagai "langkah terakhir" dalam alur kerja terstruktur. Dalam sebuah video rilis, Codex dapat membaca umpan balik dari Slack, mengubah kode, dan merender video baru, namun pada saat itu integrasi Slack di thread tersebut tidak dapat mengunggah file. Kemudian Computer Use mengklik Add file, melengkapi langkah yang hilang ini.
Ini juga yang memiliki batas kepercayaan terluas di antara ketiganya. Berikan hanya satu aplikasi atau alur yang jelas dalam satu waktu. Jaga agar aplikasi sensitif tertentu tetap tertutup jika bukan bagian dari tugas; periksa dengan teliti popup izin; untuk perubahan yang melibatkan keuangan, akun, pembayaran, kredensial, privasi, dan keamanan sistem, sebaiknya diawasi dengan kehadiran manusia.
Gunakan @Chrome untuk Menangani Multi-tab dan Status Login
Ekstensi Chrome Codex memungkinkan Codex mengakses status Chrome Anda yang sudah login. Gunakan saat tugas bergantung pada akun, cookies, profil browser, atau tab yang sudah Anda buka dan autentikasi.
Antarmuka operasi ini cocok untuk bekerja di alat seperti:
Gmail atau LinkedIn;
Salesforce atau backend layanan pelanggan;
Dashboard internal;
Penelitian yang sudah login di beberapa situs web;
Formulir yang bergantung pada akun atau ekstensi browser Anda.
Cara instal: Buka Plugins di Codex, tambahkan Chrome, dan ikuti proses pengaturan. Codex akan memandu Anda menginstal Ekstensi Chrome Codex dan menyetujui izin Chrome. Setelah ekstensi menampilkan Connected, buka thread baru.
Cara pemicu: Sebutkan @Chrome, atau secara eksplisit minta Codex menggunakan browser Chrome Anda yang sudah login:
Tugas Chrome akan berjalan dalam grup tab, yang membantu mengelompokkan tab terkait dengan thread Codex tertentu. Berbeda dengan browser dalam aplikasi, antarmuka operasi ini membawa identitas browser Anda. Ini membuatnya lebih kuat, tetapi juga lebih sensitif.
Keuntungan utama lainnya adalah kendali multi-tab. Chrome dapat mengaitkan beberapa tab dengan tugas yang sama, membaca konteks di satu halaman, membandingkan informasi di halaman lain, lalu melanjutkan alur kerja di halaman ketiga. Computer Use juga dapat menggerakkan browser secara visual, tetapi Chrome akan memahami tugas sebagai alur kerja browser, bukan serangkaian operasi koordinat layar.
Baru-baru ini ada sebuah thread, saya memberikan tab Strudel Composer yang sudah terbuka kepada Codex, memintanya membuat musik lebih menarik. Chrome memberikannya tab yang dipilih, serta alat WebMCP yang diekspos oleh halaman ini. Codex memeriksa struktur lagu, menulis ulang harmoni dan keseluruhan bentuk selama empat menit, mengubah tempo, menyimpan trek, dan memutar terus. Ia tidak perlu mencari setiap kontrol secara visual di antarmuka, karena Chrome dapat menggabungkan konteks tab dengan kemampuan terstruktur yang disediakan halaman.
Saya juga menggunakannya untuk menjalankan thread Twitter jangka panjang. Instruksi dasarnya adalah:
Yang menarik bukanlah Codex dapat membuka Twitter, tetapi thread ini dapat kembali ke lingkungan kerja yang sudah login yang sama untuk waktu lama, menghubungkan konten yang ditemukan ke file lokal, dan meninggalkan hasil yang dapat saya tinjau.
Batas kepercayaan di sini penting. Situs web mungkin menganggap klik, pengiriman formulir, dan pengiriman pesan Codex sebagai tindakan yang Anda lakukan sendiri. Konten halaman web itu sendiri juga merupakan input yang tidak terpercaya. Pisahkan langkah-langkah dengan konsekuensi berat secara eksplisit: penelitian, navigasi, dan penyusunan dapat dilakukan otomatis; sebelum mengirim, memposting, membeli, atau mengirimkan, perlu tinjauan Anda.
Jika seluruh tugas diselesaikan di dalam browser, prioritaskan Chrome, bukan Computer Use. Chrome memiliki konteks native browser yang diperlukan untuk tugas semacam ini, sementara tidak memperluas akses ke seluruh desktop.
Gunakan @Browser dalam Aplikasi untuk Menangani Situs Web yang Sedang Anda Kembangkan
Browser dalam aplikasi adalah browser yang ada di dalam thread Codex. Anda dan Codex berbagi halaman render yang sama, sehingga sangat cocok untuk membangun dan mendebug aplikasi Web.
Saya biasanya memulai dari sini untuk menangani:
Server pengembangan lokal;
Halaman pratinjau berbasis file;
Halaman publik yang tidak memerlukan login;
Bug visual yang direproduksi;
Memeriksa tata letak responsif;
Memberikan umpan balik desain untuk elemen halaman.
Kendala terpentingnya adalah isolasi. Browser dalam aplikasi tidak menggunakan profil browser, cookies, ekstensi, sesi login, atau tab yang ada dari browser biasa Anda. Ketika tugas memerlukan identitas akun, ini merupakan batasan; tetapi ketika tugas tidak memerlukan akun, ini justru menjadi batasan yang berguna.
Cara pengaturan: Buka Plugins di Codex, tambahkan plugin Browser dan aktifkan.
Cara pemicu: Sebutkan @Browser dalam prompt, atau secara eksplisit minta Codex menggunakan browser dalam aplikasi:
Ini membentuk siklus umpan balik yang ketat: Codex dapat mengedit kode, mengoperasikan halaman, memeriksa status render, mengambil screenshot, lalu memverifikasi kembali alur yang sama setelah perbaikan.
Bagian favorit saya adalah anotasi. Saat meninjau aplikasi lokal, saya dapat langsung mengklik suatu elemen, atau memilih area dan memberikan komentar. Kontrol gaya juga memungkinkan saya melihat pratinjau dan memberikan umpan balik yang lebih tepat tentang teks, font, spasi, dan warna. Saya biasanya menggabungkannya dengan input suara dan panduan proses: Saya meninjau halaman, memberikan komentar, dan terus mengantre lebih banyak masukan sementara Codex memproses umpan balik saat ini. Halaman itu sendiri menjadi spesifikasi.
Ini sangat berguna untuk pekerjaan desain. Seringkali saya meminta Codex mengatur ide, paket penelitian, atau status proyek menjadi file tunggal index.html, lalu membukanya dengan browser dalam aplikasi. Daripada mencoba mendeskripsikan seluruh desain dalam prompt lain, saya dapat langsung memberi anotasi pada halaman nyata: "Hierarki ini terbalik", "Di sini jangan terlalu mirip kartu", "Kontrol ini butuh lebih banyak ruang", atau "Gunakan proporsi ukuran font ini di seluruh situs". Codex menerima komentar dengan screenshot terkait dan konteks elemen, mengubah file, lalu membuka kembali halaman yang sama untuk putaran berikutnya.
Siklus ini terasa lebih dekat dengan bekerja bersama seorang desainer di kanvas yang sama, daripada bolak-balik mengirim screenshot dan penjelasan tertulis.
Browser dalam aplikasi juga cocok sebagai titik awal alur kerja campuran. Di thread lain, saya membuka postingan X dengan browser dalam aplikasi, meminta Codex menyelidiki diskusi terkait. Halaman yang terlihat membantunya mengonfirmasi postingan mana yang saya maksud; kemudian Codex beralih ke Twitter CLI, mengambil 38 balasan, termasuk balasan bersarang yang disembunyikan dari tampilan browser. Inilah praktik prinsip "gunakan antarmuka operasi tersempit": gunakan browser untuk mengonfirmasi konteks di layar, lalu gunakan alat terstruktur untuk pencarian yang lebih dalam.
Di sini ada pertukaran. Isolasi browser dalam aplikasi menjadikannya antarmuka pengembangan yang bagus, tetapi juga berarti tidak cocok untuk menangani login Google, passkey, atau situs web yang bergantung pada ekstensi browser. Saat identitas penting, beralih ke Chrome.
Appshots
Appshot bukan cara keempat Codex mengendalikan komputer. Ini adalah metode untuk mengarahkan Codex ke konteks di depan Anda.
Di Mac, tekan tombol CMD dua kali, Anda dapat menangkap jendela terbaru. Codex akan melampirkan gambar dan semua teks yang tersedia ke thread. Anda dapat melakukan Appshot terhadap kesalahan, email, desain, panel pengaturan, atau formulir asing, lalu langsung berkata:
Inilah model mental yang menurut saya paling mudah diingat: Appshots adalah cara Anda menunjuk ke sesuatu di komputer; Browser, Chrome, dan Computer Use adalah cara Codex mengambil tindakan.
Appshots saat ini dibuat melalui aplikasi Codex di macOS. Ia menangkap jendela paling depan, bukan seluruh desktop. Ini menjadikannya cara yang sangat berguna: Anda dapat memberikan konteks yang terfokus tanpa memberikan kendali atas aplikasi tersebut.
Cara Mengikuti Perkembangan Ini
Antarmuka operasi ini berubah dengan cepat. Jika Anda ingin mendapatkan detail praktis, daripada menunggu ringkasan rilis besar:
Ikuti Ari Weinstein(@AriX), untuk Computer Use dan Appshots;
Ikuti James Sun(@JamesZmSun), untuk konten terkait Browser;
Ikuti Andrew Ambrosino(@ajambrosino), untuk rilis aplikasi Codex, dan narasi produk desktop yang lebih besar;
Ikuti OpenAI Developers(@OpenAIDevs), untuk berita Codex dan OpenAI Platform yang lebih luas.






