Lời biên tập: Bài viết này hệ thống hóa ba lối vào để Codex tương tác với môi trường bên ngoài: Computer Use, Tiện ích mở rộng Chrome và Browser trong ứng dụng. Cả ba đều có vẻ như đang giải quyết vấn đề "để Codex sử dụng máy tính", nhưng tương ứng với các tình huống nhiệm vụ, ranh giới quyền hạn và mức độ tin cậy khác nhau.
Trong đó, Computer Use có phạm vi bao phủ rộng nhất, có thể trực tiếp thao tác các ứng dụng gốc, cài đặt hệ thống, giả lập iOS trên macOS/Windows đã được ủy quyền, thậm chí thực hiện quy trình công việc xuyên qua nhiều ứng dụng. Nó phù hợp với các quy trình GUI không có hỗ trợ API, plugin hay công cụ có cấu trúc, nhưng cái giá phải trả là tốc độ chậm hơn và ranh giới quyền hạn cũng rộng nhất. Tiện ích mở rộng Chrome phù hợp với các nhiệm vụ phụ thuộc vào trạng thái đăng nhập, Cookies, nhiều tab và danh tính trình duyệt, chẳng hạn như Gmail, LinkedIn, Salesforce, hệ thống nội bộ, hoặc nghiên cứu đã đăng nhập xuyên qua nhiều trang web. Browser trong ứng dụng thiên về các tình huống phát triển và gỡ lỗi hơn, đặc biệt phù hợp với dịch vụ cục bộ, lỗi giao diện, bố cục đáp ứng và chú thích thiết kế; nó không kế thừa trạng thái đăng nhập từ trình duyệt bình thường của người dùng, khả năng hẹp hơn, nhưng tính cách ly cũng mạnh hơn.
Phán đoán cốt lõi của bài viết là, Codex không chỉ có một cách "dùng máy tính", điều thực sự quan trọng là chọn giao diện thao tác hẹp nhất, an toàn nhất và có cấu trúc nhất dựa trên nhiệm vụ. Nếu có thể dùng plugin hoặc MCP, thì không nên sử dụng kiểm soát hình ảnh trước; nhiệm vụ chỉ liên quan đến phát triển web, thì ưu tiên sử dụng Browser trong ứng dụng; khi cần danh tính trình duyệt và trạng thái đăng nhập của người dùng, hãy chuyển sang Chrome; chỉ khi các công cụ có cấu trúc không thể bao phủ, và nhiệm vụ bắt buộc phải phụ thuộc vào giao diện đồ họa trên máy tính để bàn, thì Computer Use mới là giải pháp cuối cùng.
Appshots không phải là cách thứ tư để điều khiển máy tính, mà là công cụ "chỉ cho Codex xem" ngữ cảnh màn hình hiện tại. Nó giải quyết vấn đề đầu vào ngữ cảnh, trong khi Browser, Chrome và Computer Use giải quyết vấn đề hành động. Nhìn chung, hệ thống phân tầng này thực chất tiết lộ chìa khóa cho việc sản phẩm hóa AI Agent: không phải là để mô hình có được quyền hạn vô hạn, mà là liên tục thu hẹp quyền hạn, làm rõ ranh giới trong các nhiệm vụ cụ thể, và để người dùng giữ quyền xem xét các hành động then chốt.
Dưới đây là bài viết gốc:
Codex sử dụng máy tính có ba cách: Computer Use, Tiện ích mở rộng Chrome, và trình duyệt trong ứng dụng.
Chúng có một số phần chồng lấp, đủ để dễ gây nhầm lẫn.
Sau khi đọc bài viết này, bạn sẽ biết cách cài đặt và kích hoạt ba cách này, nên sử dụng trong tình huống nào, Appshots và Chế độ nhà phát triển kết nối chúng ra sao, và nên viết gì trong AGENTS.md để Codex có thể tự chọn giao diện thao tác phù hợp.
Phiên bản đơn giản là:
Dù vậy, chỉ cần có thể, vẫn nên ưu tiên sử dụng plugin hoặc MCP. Ví dụ, plugin Slack có thể tìm kiếm một luồng hội thoại chính xác hơn so với việc nhấp chuột khắp nơi trong Slack; các thao tác do plugin GitHub tạo ra cũng dễ kiểm tra hơn so với việc để Codex điều khiển trang web. Kiểm soát hình ảnh phù hợp nhất khi được sử dụng ở những nơi khả năng của công cụ có cấu trúc đạt đến giới hạn.
Tất cả đều có thể là @Computer
Computer Use là giao diện thao tác có phạm vi bao phủ rộng nhất trong ba loại này. Nó cho phép Codex xem và thao tác giao diện đồ họa trên macOS và Windows, bao gồm cửa sổ, menu, nhập liệu bàn phím và clipboard trong các ứng dụng bạn ủy quyền.
Nó thường cũng là chậm nhất. Plugin có cấu trúc có thể gọi trực tiếp API; Computer Use cần quan sát giao diện, phán đoán nên nhấp vào đâu, chờ ứng dụng phản hồi, rồi kiểm tra trạng thái bước tiếp theo. Vòng lặp hình ảnh này sẽ tiêu tốn thời gian, nhưng cũng có nghĩa là Codex có thể thao tác những ứng dụng hoàn toàn không có API khả dụng.
Trên macOS, chậm không nhất thiết có nghĩa là sẽ làm phiền bạn. Computer Use có thể thao tác các ứng dụng bạn ủy quyền ở chế độ nền, trong khi bạn vẫn có thể tiếp tục sử dụng các phần khác của máy tính. Nhiều lúc, tôi mở một ứng dụng nào đó khi đang dùng Codex, mới phát hiện Codex đã âm thầm hoàn thành một quy trình công việc ở chế độ nền.
Tùy thuộc vào những ứng dụng nào được cài đặt và ủy quyền trên máy tính của bạn, các đối tượng thao tác này có thể bao gồm Spotify, Xcode, Cài đặt Hệ thống, Giả lập iOS, thậm chí là điều khiển iPhone của bạn bằng iPhone Mirroring. Nó cũng có thể chuyển đổi giữa nhiều ứng dụng, xử lý các quy trình công việc trải dài trên các ứng dụng khác nhau.
Hãy sử dụng nó khi nhiệm vụ phụ thuộc vào:
Ứng dụng máy tính để bàn gốc, như Spotify hoặc các ứng dụng tài chính;
Giả lập iOS, iPhone Mirroring, hoặc các quy trình khác chỉ có thể thao tác qua giao diện đồ họa;
Cài đặt hệ thống hoặc ứng dụng;
Nguồn dữ liệu không có plugin hoặc API;
Quy trình công việc cần chuyển đổi giữa nhiều ứng dụng;
Thao tác bước cuối cùng bị thiếu trong một tích hợp có cấu trúc.
Cách cài đặt: Mở Settings > Computer Use trong Codex, sau đó nhấp Install.
Cách kích hoạt: Nhắc đến @Computer, hoặc yêu cầu rõ ràng Codex sử dụng Computer Use. Khi năng lực mô hình được nâng cao, trong tương lai nó cũng sẽ tự gọi khi cần.
Bạn có thể thử vài ví dụ trước:
Một ví dụ tôi thích nhất, bắt nguồn từ việc một gói hàng bị đánh cắp. Amazon nói với tôi rằng phải đợi khoảng 25 phút mới có thể kết nối với nhân viên hỗ trợ khách hàng. Tôi giao một luồng Codex cho Computer Use, yêu cầu nó cứ năm phút kiểm tra cửa sổ trò chuyện một lần, chờ cho đến khi nhân viên xuất hiện thì đổi thành mỗi phút kiểm tra một lần, và cố gắng giúp tôi nhận được khoản hoàn tiền. Khi tôi tắm xong trở lại, khoản hoàn tiền đã hoàn tất.
Tôi cũng sử dụng Computer Use như "bước cuối cùng" trong quy trình công việc có cấu trúc. Trong một video phát hành, Codex có thể đọc phản hồi từ Slack, sửa mã và render video mới, nhưng tại thời điểm đó, tích hợp Slack trong luồng đó không thể tải tệp lên. Vì vậy, Computer Use đã nhấp vào Add file, bổ sung bước còn thiếu này.
Nó cũng là loại có ranh giới tin cậy rộng nhất trong ba loại. Mỗi lần chỉ cấp cho nó một ứng dụng hoặc quy trình rõ ràng. Khi một số ứng dụng nhạy cảm không phải là một phần của nhiệm vụ, hãy giữ chúng ở trạng thái đóng; kiểm tra kỹ các cửa sổ bật lên yêu cầu quyền; đối với các thay đổi liên quan đến tài chính, tài khoản, thanh toán, chứng chỉ, quyền riêng tư và bảo mật hệ thống, tốt nhất nên có người giám sát tại chỗ.
Sử Dụng @Chrome Để Xử Lý Nhiều Tab Và Trạng Thái Đăng Nhập
Tiện ích mở rộng Chrome của Codex cho phép Codex truy cập trạng thái Chrome mà bạn đã đăng nhập. Khi nhiệm vụ phụ thuộc vào tài khoản, cookies, hồ sơ trình duyệt, hoặc các tab bạn đã mở và xác thực, thì nên sử dụng nó.
Loại giao diện thao tác này phù hợp với công việc trong các công cụ như:
Gmail hoặc LinkedIn;
Salesforce hoặc hệ thống hỗ trợ khách hàng;
Bảng điều khiển nội bộ;
Nghiên cứu đã đăng nhập xuyên qua nhiều trang web;
Biểu mẫu phụ thuộc vào tài khoản hoặc tiện ích mở rộng trình duyệt của bạn.
Cách cài đặt: Mở Plugins trong Codex, thêm Chrome và làm theo quy trình thiết lập. Codex sẽ hướng dẫn bạn cài đặt Tiện ích mở rộng Codex Chrome và phê duyệt quyền của Chrome. Khi tiện ích mở rộng hiển thị Connected, hãy mở một luồng mới.
Cách kích hoạt: Nhắc đến @Chrome, hoặc yêu cầu rõ ràng Codex sử dụng trình duyệt Chrome mà bạn đã đăng nhập:
Các nhiệm vụ Chrome sẽ chạy trong nhóm tab, điều này giúp nhóm các tab liên quan đến một luồng Codex cụ thể lại với nhau. Khác với trình duyệt trong ứng dụng, giao diện thao tác này mang theo danh tính trình duyệt của bạn. Điều này làm cho nó mạnh hơn, nhưng cũng nhạy cảm hơn.
Một lợi thế chính khác là kiểm soát nhiều tab. Chrome có thể liên kết nhiều tab với cùng một nhiệm vụ, đọc ngữ cảnh trong một trang, đối chiếu thông tin trong trang khác, rồi tiếp tục quy trình công việc trong trang thứ ba. Computer Use cũng có thể điều khiển trình duyệt bằng hình ảnh, nhưng Chrome sẽ hiểu nhiệm vụ như một quy trình công việc trên trình duyệt, thay vì một chuỗi thao tác tọa độ màn hình.
Gần đây có một luồng, tôi giao một tab Strudel Composer đã mở cho Codex, yêu cầu nó làm cho bản nhạc thú vị hơn. Chrome đã cấp cho nó tab được chọn, cùng với các công cụ WebMCP mà trang này cung cấp. Codex kiểm tra cấu trúc bài hát, viết lại hòa âm và toàn bộ hình thức dài bốn phút, sửa đổi tốc độ, lưu bài hát và để nó tiếp tục phát. Nó không cần phải tìm kiếm từng điều khiển trên giao diện bằng hình ảnh, vì Chrome có thể kết hợp ngữ cảnh tab với khả năng có cấu trúc mà trang cung cấp.
Tôi còn dùng nó để chạy một luồng Twitter dài hạn. Chỉ dẫn đại khái là:
Điều thú vị không phải là Codex có thể mở Twitter, mà là luồng này có thể quay lại cùng một môi trường làm việc đã đăng nhập trong thời gian dài, kết nối nội dung phát hiện được với các tệp cục bộ và để lại một kết quả cho tôi xem xét.
Ranh giới tin cậy ở đây rất quan trọng. Các trang web có thể coi các lần nhấp chuột, gửi biểu mẫu và gửi tin nhắn của Codex như những hành động do chính bạn thực hiện. Bản thân nội dung trang web cũng là đầu vào không đáng tin cậy. Hãy phân biệt rõ ràng các bước có hậu quả nặng nề: nghiên cứu, điều hướng và soạn thảo có thể hoàn thành tự động; gửi, đăng, mua hoặc gửi đi trước đó, cần có sự xem xét của bạn.
Nếu toàn bộ nhiệm vụ được hoàn thành trong trình duyệt, hãy ưu tiên dùng Chrome, thay vì Computer Use. Chrome có ngữ cảnh gốc của trình duyệt mà loại nhiệm vụ này cần, đồng thời không mở rộng phạm vi truy cập ra toàn bộ máy tính để bàn.
Sử Dụng @Browser Trong Ứng Dụng Để Xử Lý Trang Web Bạn Đang Phát Triển
Trình duyệt trong ứng dụng là trình duyệt tồn tại bên trong luồng Codex. Bạn và Codex chia sẻ cùng một trang được render, vì vậy nó đặc biệt phù hợp để xây dựng và gỡ lỗi ứng dụng web.
Tôi thường bắt đầu xử lý từ đây với:
Máy chủ phát triển cục bộ;
Trang xem trước dựa trên tệp;
Trang công khai không cần đăng nhập;
Tái hiện lỗi giao diện;
Kiểm tra bố cục đáp ứng;
Để lại phản hồi thiết kế cho các phần tử trang.
Ràng buộc quan trọng nhất của nó là tính cách ly. Trình duyệt trong ứng dụng không sử dụng hồ sơ, cookies, tiện ích mở rộng, phiên đăng nhập hoặc tab hiện có của trình duyệt thông thường của bạn. Khi nhiệm vụ cần danh tính tài khoản, đây là một hạn chế; nhưng khi nhiệm vụ không cần tài khoản, đây lại là một ranh giới hữu ích.
Cách thiết lập: Mở Plugins trong Codex, thêm và bật plugin Browser.
Cách kích hoạt: Nhắc đến @Browser trong lời nhắc, hoặc yêu cầu rõ ràng Codex sử dụng trình duyệt trong ứng dụng:
Điều này tạo thành một vòng phản hồi chặt chẽ: Codex có thể chỉnh sửa mã, thao tác trang, kiểm tra trạng thái render, chụp ảnh màn hình, rồi xác minh lại cùng quy trình sau khi sửa.
Phần tôi thích nhất là chú thích. Khi tôi đánh giá một ứng dụng cục bộ, có thể trực tiếp nhấp vào một phần tử, hoặc chọn một khu vực và để lại nhận xét. Các điều khiển kiểu dáng cũng cho phép tôi xem trước và phản hồi về văn bản, phông chữ, khoảng cách và màu sắc một cách chính xác hơn. Tôi thường kết hợp nó với đầu vào bằng giọng nói và hướng dẫn quy trình: Tôi đánh giá trang, để lại nhận xét và tiếp tục xếp hàng thêm ý kiến trong khi Codex xử lý phản hồi hiện tại. Bản thân trang này trở thành bản đặc tả kỹ thuật.
Điều này đặc biệt hữu ích cho công việc thiết kế. Tôi thường yêu cầu Codex tổ chức một ý tưởng, một gói nghiên cứu hoặc trạng thái dự án thành một tệp index.html duy nhất, sau đó mở nó bằng trình duyệt trong ứng dụng. Thay vì cố gắng mô tả toàn bộ thiết kế trong một lời nhắc khác, tôi có thể trực tiếp chú thích trên trang thực: "Thứ bậc ở đây bị đảo ngược", "Ở đây đừng giống thẻ quá", "Các điều khiển này cần thêm không gian", hoặc "Toàn trang dùng tỷ lệ cỡ chữ này". Codex sẽ nhận được nhận xét kèm theo ảnh chụp màn hình liên quan và ngữ cảnh phần tử, sửa đổi tệp, sau đó mở lại cùng một trang để bước vào vòng tiếp theo.
Vòng lặp này mang cảm giác gần giống như làm việc cùng một nhà thiết kế trên cùng một bảng vẽ, hơn là truyền qua lại ảnh chụp màn hình và mô tả bằng văn bản.
Trình duyệt trong ứng dụng cũng phù hợp làm điểm khởi đầu cho quy trình công việc hỗn hợp. Trong một luồng khác, tôi đã dùng trình duyệt trong ứng dụng để mở một bài đăng X, yêu cầu Codex điều tra các thảo luận liên quan. Trang hiển thị giúp nó xác nhận tôi đang đề cập đến bài đăng nào; sau đó Codex chuyển sang Twitter CLI, truy xuất 38 phản hồi, bao gồm cả những phản hồi lồng nhau bị ẩn khỏi chế độ xem trình duyệt. Đây là thực hành nguyên tắc "sử dụng giao diện thao tác hẹp nhất": dùng trình duyệt để xác nhận ngữ cảnh trên màn hình, rồi dùng công cụ có cấu trúc để truy xuất sâu hơn.
Ở đây cũng có sự đánh đổi. Tính cách ly của trình duyệt trong ứng dụng khiến nó trở thành giao diện phát triển tốt, nhưng cũng có nghĩa là nó không phù hợp để xử lý đăng nhập Google, passkey hoặc các trang web phụ thuộc vào tiện ích mở rộng trình duyệt. Khi danh tính quan trọng, hãy chuyển sang Chrome.
Appshots
Appshot không phải là cách thứ tư để Codex điều khiển máy tính. Nó là một phương pháp để chỉ cho Codex thấy ngữ cảnh trước mắt bạn.
Trên Mac, nhấn hai lần phím CMD để chụp cửa sổ gần nhất. Codex sẽ đính kèm một hình ảnh cùng với tất cả văn bản khả dụng vào luồng. Bạn có thể chụp Appshot cho một lỗi, một email, một thiết kế, một bảng cài đặt hoặc một biểu mẫu lạ, sau đó nói trực tiếp:
Đây là mô hình tư duy tôi cảm thấy dễ nhớ nhất: Appshots là cách bạn dùng để chỉ vào thứ gì đó trên máy tính; Browser, Chrome và Computer Use là cách Codex thực hiện hành động.
Appshots hiện được tạo thông qua ứng dụng Codex trên macOS. Nó chụp cửa sổ ở phía trước nhất, không phải toàn bộ màn hình. Điều này làm cho nó trở thành một cách hữu ích: bạn có thể cung cấp ngữ cảnh tập trung mà không cần cấp quyền kiểm soát ứng dụng đó.
Cách Theo Dõi Những Tiến Triển Này
Các giao diện thao tác này thay đổi rất nhanh. Nếu bạn muốn nhận được chi tiết thực tế, thay vì chờ đợi một bài tổng kết phát hành lớn:
Theo dõi Ari Weinstein (@AriX) để biết về Computer Use và Appshots;
Theo dõi James Sun (@JamesZmSun) để biết về nội dung liên quan đến Browser;
Theo dõi Andrew Ambrosino (@ajambrosino) để biết về phát hành ứng dụng Codex và câu chuyện sản phẩm máy tính để bàn lớn hơn;
Theo dõi OpenAI Developers (@OpenAIDevs) để biết tin tức rộng hơn về Codex và OpenAI Platform.






