Codex làm thế nào để sử dụng máy tính? Ba cách truy cập và ranh giới quyền hạn

Bản gốc tiêu đề: Ba cách Codex có thể sử dụng máy tính
Tác giả bản gốc: jason
Dịch: Peggy, BlockBeats

Lời người biên tập: Bài viết này tổng hợp ba cách để Codex thao tác với môi trường bên ngoài: Sử dụng Máy tính, Tiện ích mở rộng Chrome và Trình duyệt trong ứng dụng. Cả ba dường như đều nhằm giải quyết vấn đề "để Codex sử dụng máy tính", nhưng phù hợp với các kịch bản nhiệm vụ, giới hạn quyền và mức độ tin cậy khác nhau.

Trong đó, Sử dụng Máy tính (Computer Use) có phạm vi rộng nhất, có thể thao tác trực tiếp các ứng dụng gốc được phép trên macOS / Windows, cài đặt hệ thống, giả lập iOS, thậm chí hoàn thành quy trình làm việc qua nhiều ứng dụng. Phù hợp với các quy trình GUI không có API, plugin hoặc công cụ cấu trúc hỗ trợ, nhưng đổi lại tốc độ chậm hơn và phạm vi quyền rộng hơn. Tiện ích mở rộng Chrome phù hợp với các nhiệm vụ dựa vào trạng thái đăng nhập, Cookies, nhiều tab và danh tính trình duyệt, như Gmail, LinkedIn, Salesforce, backend nội bộ hoặc nghiên cứu đăng nhập qua nhiều trang web. Trình duyệt trong ứng dụng hướng tới các tình huống phát triển và gỡ lỗi, đặc biệt phù hợp với dịch vụ cục bộ, lỗi thị giác, bố cục phản hồi và chú thích thiết kế; nó không kế thừa trạng thái đăng nhập của trình duyệt người dùng bình thường, khả năng hạn chế hơn nhưng cách ly tốt hơn.

Chủ chốt của bài viết là, Codex không chỉ có một cách "dùng máy tính", mà quan trọng là chọn giao diện thao tác phù hợp nhất, an toàn nhất, có cấu trúc rõ ràng nhất theo nhiệm vụ. Nếu có thể dùng plugin hoặc MCP, không nên dùng kiểm soát thị giác trước; chỉ dùng trình duyệt trong ứng dụng khi nhiệm vụ liên quan đến phát triển web; khi cần trạng thái đăng nhập và danh tính trình duyệt của người dùng, chuyển sang Chrome; chỉ khi các công cụ cấu trúc không thể đáp ứng và nhiệm vụ bắt buộc dựa vào giao diện đồ họa desktop, thì Sử dụng Máy tính mới là bước cuối cùng.

Appshots không phải là cách thứ tư để kiểm soát máy tính, mà là công cụ "chỉ thị cho Codex xem" ngữ cảnh màn hình hiện tại. Nó giải quyết vấn đề nhập ngữ cảnh, còn Browser, Chrome và Computer Use giải quyết vấn đề hành động. Khi nhìn chung, bộ phân lớp này thực chất tiết lộ điểm mấu chốt của sản phẩm AI Agent: không phải cấp quyền vô hạn cho mô hình, mà là thu hẹp quyền, xác định rõ ràng giới hạn trong từng nhiệm vụ, và giữ quyền kiểm duyệt các hành động quan trọng của người dùng.

Dưới đây là nguyên bản:

Codex có ba cách sử dụng máy tính: Sử dụng Máy tính, Tiện ích mở rộng Chrome, và Trình duyệt trong ứng dụng.

Chúng có một số chồng chéo, đúng lúc gây nhầm lẫn.

Sau khi đọc xong bài này, bạn sẽ biết cách cài đặt và kích hoạt ba phương thức này, từng trường hợp sử dụng phù hợp, cách kết nối Appshots và Chế độ nhà phát triển, cũng như viết gì trong AGENTS.md để Codex tự chọn giao diện phù hợp.

Phiên bản đơn giản là:

Dù sao đi nữa, nếu có thể, vẫn ưu tiên dùng plugin hoặc MCP. Ví dụ, plugin Slack có thể chính xác hơn trong việc truy xuất một luồng thảo luận so với click lung tung trong Slack; thao tác do plugin GitHub tạo ra cũng dễ kiểm tra hơn so với để Codex điều khiển trang web. Kiểm soát thị giác phù hợp khi khả năng của công cụ cấu trúc đã đạt giới hạn.

Mọi thứ đều có thể là @Computer

Sử dụng Máy tính là giao diện thao tác có phạm vi rộng nhất trong ba cách. Nó cho phép Codex xem và thao tác giao diện đồ họa trên macOS và Windows, bao gồm cửa sổ, menu, nhập bàn phím, và clipboard trong ứng dụng được phép.

Thông thường, nó cũng chậm nhất. Plugin cấu trúc có thể gọi API trực tiếp; còn Sử dụng Máy tính thì cần quan sát giao diện, xác định chỗ nhấn, chờ phản hồi của ứng dụng, rồi kiểm tra trạng thái tiếp theo. Vòng lặp thị giác này mất thời gian, nhưng cũng có nghĩa là Codex có thể thao tác các ứng dụng hoàn toàn không có API.

Trên macOS, chậm không nhất thiết gây phiền hà. Sử dụng Máy tính có thể thao tác nền các ứng dụng bạn cho phép, trong khi bạn vẫn tiếp tục dùng các phần khác của máy tính. Nhiều khi, tôi dùng Codex mở một ứng dụng, rồi phát hiện nó đã âm thầm hoàn thành một quy trình nào đó trong nền.

Tùy theo các ứng dụng đã cài đặt và cấp phép trên máy, các thao tác này có thể bao gồm Spotify, Xcode, Cài đặt hệ thống, giả lập iOS, thậm chí điều khiển iPhone qua phản chiếu màn hình. Nó cũng có thể chuyển đổi giữa nhiều ứng dụng, xử lý quy trình làm việc xuyên ứng dụng.

Khi nhiệm vụ dựa vào:

Ứng dụng gốc trên desktop như Spotify hoặc các ứng dụng tài chính;

Giả lập iOS, phản chiếu iPhone hoặc các quy trình chỉ thao tác qua giao diện đồ họa;

Cài đặt hệ thống hoặc ứng dụng;

Nguồn dữ liệu không có plugin hoặc API;

Quy trình làm việc chuyển đổi qua nhiều ứng dụng;

Bước cuối trong tích hợp cấu trúc thiếu sót.

Cách cài đặt: Vào Settings của Codex > Computer Use, rồi nhấn Install.

Cách kích hoạt: Đề cập @Computer, hoặc yêu cầu rõ ràng Codex dùng Computer Use. Khi khả năng mô hình nâng cao, trong tương lai nó sẽ tự gọi khi cần.

Dưới đây là vài ví dụ thử:

Ví dụ yêu thích của tôi, bắt nguồn từ việc một gói hàng bị mất trộm. Amazon bảo tôi đợi khoảng 25 phút để liên hệ dịch vụ khách hàng. Tôi giao một luồng Codex cho Computer Use, để nó kiểm tra cửa sổ chat mỗi 5 phút, khi có nhân viên hỗ trợ xuất hiện thì đổi sang kiểm tra mỗi phút, và cố gắng giúp tôi lấy lại tiền hoàn trả. Khi tôi tắm xong, tiền đã được hoàn tất.

Use @Computer để mở Spotify, tìm playlist Discover Weekly của tôi, và bắt đầu phát. Không thay đổi cài đặt tài khoản hoặc đăng ký của tôi. Use @Computer để mở phản chiếu iPhone, tái tạo lỗi onboarding trong ứng dụng iOS, chụp màn hình trạng thái lỗi. Sửa đường dẫn nhỏ nhất liên quan, rồi chạy lại cùng luồng đó.

Tôi cũng dùng Computer Use như bước cuối trong quy trình làm việc cấu trúc. Trong một lần phát hành video, Codex có thể đọc phản hồi từ Slack, chỉnh sửa mã, render video mới, nhưng lúc đó tích hợp Slack trong luồng không thể tải lên file. Vậy nên, Computer Use đã nhấn Add file, bổ sung bước thiếu.

Nó cũng là dạng có phạm vi tin cậy rộng nhất trong ba. Chỉ cấp quyền rõ ràng cho một ứng dụng hoặc quy trình nhất định. Khi các ứng dụng nhạy cảm không nằm trong nhiệm vụ, giữ tắt; kiểm tra kỹ các cửa sổ cấp phép; khi liên quan đến tài chính, tài khoản, thanh toán, chứng từ, quyền riêng tư hoặc an ninh hệ thống, tốt nhất có người giám sát.

Sử dụng @Chrome để xử lý nhiều tab và trạng thái đăng nhập

Tiện ích mở rộng Chrome của Codex cho phép truy cập trạng thái đã đăng nhập của Chrome của bạn. Khi nhiệm vụ phụ thuộc vào tài khoản, cookies, profile trình duyệt, hoặc các tab đã xác thực, thì nên dùng nó.

Giao diện này phù hợp với các công cụ sau:

Gmail hoặc LinkedIn;

Salesforce hoặc backend dịch vụ khách hàng;

Bảng điều khiển nội bộ;

Nghiên cứu đăng nhập qua nhiều trang;

Các biểu mẫu dựa trên tài khoản hoặc extension trình duyệt.

Cách cài đặt: Vào Plugins của Codex, thêm Chrome, theo hướng dẫn cài đặt. Codex sẽ hướng dẫn bạn cài extension Codex Chrome, cấp quyền Chrome. Khi extension hiển thị Connected, mở luồng mới.

Cách kích hoạt: Đề cập @Chrome, hoặc yêu cầu rõ ràng Codex dùng Chrome đã đăng nhập của bạn:

Use @Chrome để xem xét tài khoản khách hàng mở, so sánh với ticket hỗ trợ trong tab khác, và soạn các trường thiếu. Dừng trước khi gửi.

Các nhiệm vụ Chrome chạy trong nhóm tab, giúp giữ các tab liên quan đến một luồng Codex cùng nhau. Khác với trình duyệt trong ứng dụng, giao diện này mang theo danh tính trình duyệt của bạn, mạnh hơn và nhạy cảm hơn.

Một lợi thế lớn nữa là kiểm soát nhiều tab. Chrome cho phép liên kết nhiều tab với cùng một nhiệm vụ, đọc ngữ cảnh trong một tab, đối chiếu thông tin trong tab khác, rồi tiếp tục quy trình trong tab thứ ba. Computer Use cũng có thể điều khiển trình duyệt bằng thị giác, nhưng Chrome hiểu nhiệm vụ như một quy trình trình duyệt, chứ không phải chuỗi thao tác tọa độ màn hình.

Gần đây, tôi đã giao một tab Strudel Composer đã mở cho Codex, để nó làm nhạc phong phú hơn. Chrome cung cấp tab đã chọn, cùng công cụ WebMCP của trang đó. Codex kiểm tra cấu trúc bản nhạc, viết lại hòa âm, chỉnh tốc độ, lưu bản nhạc, rồi tiếp tục phát. Nó không cần tìm kiếm thủ công từng phần tử trong giao diện, vì Chrome kết hợp ngữ cảnh tab và khả năng cấu trúc của trang.

Tôi cũng dùng nó để chạy một luồng Twitter dài hạn. Đề bài sơ bộ là:

Every day, use Chrome to check my DMs, read relevant news, and look for feedback or mentions I should know about. Add anything durable to my vault. Do not post or send messages.

Điều thú vị không phải là Codex mở Twitter, mà là luồng này có thể quay lại môi trường làm việc đã đăng nhập lâu dài, kết nối nội dung tìm thấy vào file cục bộ, và để lại kết quả để tôi duyệt.

Giới hạn tin cậy ở đây rất quan trọng. Các trang web có thể coi các click, gửi biểu mẫu, gửi tin nhắn của Codex là hành động của bạn. Nội dung trang web cũng là dữ liệu không đáng tin cậy. Phân biệt rõ các bước quan trọng: nghiên cứu, điều hướng, soạn thảo có thể tự động; còn gửi, đăng, mua, nộp cần bạn duyệt trước.

Nếu toàn bộ nhiệm vụ diễn ra trong trình duyệt, ưu tiên dùng Chrome, chứ không phải Computer Use. Chrome có ngữ cảnh trình duyệt cần thiết, mà không mở rộng phạm vi truy cập toàn bộ desktop.

Dùng @Browser trong ứng dụng để xử lý trang web đang phát triển

Trình duyệt trong ứng dụng là trình duyệt nằm trong luồng Codex. Bạn và Codex chia sẻ cùng một trang hiển thị, rất phù hợp để xây dựng và gỡ lỗi ứng dụng web.

Thông thường, tôi bắt đầu từ đây:

Máy chủ phát triển cục bộ;

Trang xem trước dựa trên file;

Trang công khai không cần đăng nhập;

Lặp lại lỗi thị giác;

Kiểm tra bố cục phản hồi;

Chú thích thiết kế cho phần tử trang.

Giới hạn quan trọng nhất là cách ly. Trình duyệt trong ứng dụng không dùng profile, cookies, extension, phiên đăng nhập hoặc tab đã có của trình duyệt thông thường. Khi nhiệm vụ cần tài khoản, đây là hạn chế; nhưng khi không cần tài khoản, lại là giới hạn hữu ích.

Cách cài đặt: Vào Plugins của Codex, thêm Browser và bật nó.

Cách kích hoạt: Trong prompt, đề cập @Browser, hoặc yêu cầu rõ ràng Codex dùng trình duyệt trong ứng dụng:

Use @Browser to open vite app on http://localhost:3000/, reproduce the mobile overflow bug, fix it, and verify the same route again at desktop and mobile widths.

Điều này tạo ra vòng phản hồi chặt chẽ: Codex có thể chỉnh sửa mã, thao tác trang, kiểm tra trạng thái render, chụp ảnh màn hình, rồi xác nhận lại quy trình sau sửa.

Phần tôi thích nhất là chú thích. Khi đánh giá một trang web cục bộ, tôi có thể nhấn vào phần tử, hoặc chọn vùng rồi để lại bình luận. Các công cụ định dạng giúp tôi xem trước chính xác hơn, chỉnh sửa chữ, font, khoảng cách, màu sắc. Thường tôi kết hợp nó với nhập bằng giọng nói, hướng dẫn quy trình: tôi đánh giá trang, để lại bình luận, rồi khi Codex xử lý phản hồi, tiếp tục thêm ý kiến. Trang này trở thành bản mô tả yêu cầu.

Điều này đặc biệt hữu ích cho thiết kế. Tôi thường yêu cầu Codex tổng hợp ý tưởng, nghiên cứu, hoặc trạng thái dự án thành một file index.html duy nhất, rồi mở trong trình duyệt trong ứng dụng. Thay vì mô tả toàn bộ thiết kế trong prompt, tôi có thể đánh dấu trực tiếp trên trang thật: "Cấu trúc phân cấp này đảo lộn rồi", "Chỗ này đừng như thẻ card", "Các control cần nhiều không gian hơn", hoặc "Toàn site dùng tỷ lệ font này". Codex nhận bình luận kèm ảnh chụp, ngữ cảnh phần tử, chỉnh sửa file, rồi mở lại trang để tiếp tục.

Create a single-file index.html for this project brief and open it in the in-app @Browser.

Vòng lặp này gần như làm việc cùng một nhà thiết kế trên cùng một bức tranh, chứ không phải gửi đi gửi lại ảnh chụp và mô tả.

Trình duyệt trong ứng dụng cũng phù hợp để bắt đầu quy trình làm việc hỗn hợp. Trong một luồng khác, tôi mở một bài đăng trên nền tảng X bằng trình duyệt trong ứng dụng, để Codex điều tra thảo luận liên quan. Trang hiển thị giúp nó xác định đúng bài đăng; sau đó, Codex chuyển sang Twitter CLI, lấy 38 phản hồi, trong đó có các phản hồi lồng nhau bị ẩn trong chế độ xem trình duyệt. Đây là thực hành "sử dụng giao diện hẹp nhất": xác nhận ngữ cảnh trên màn hình qua trình duyệt, rồi dùng công cụ cấu trúc để truy vấn sâu hơn.

Cũng có sự đánh đổi. Trình duyệt trong ứng dụng cách ly tốt, phù hợp làm giao diện phát triển, nhưng không phù hợp với các trang yêu cầu đăng nhập Google, passkey, hoặc dựa vào extension trình duyệt. Khi danh tính quan trọng, chuyển sang Chrome.

Appshots

Appshot không phải là cách thứ tư để kiểm soát máy tính của Codex. Nó là phương pháp "chỉ thị cho Codex xem" ngữ cảnh hiện tại của màn hình.

Trên Mac, nhấn CMD hai lần, có thể chụp cửa sổ gần nhất. Codex sẽ đính kèm hình ảnh và tất cả văn bản khả dụng vào luồng. Bạn có thể chụp Appshot cho một lỗi, email, thiết kế, bảng điều khiển, hoặc một biểu mẫu lạ, rồi nói:

Đây là mô hình dễ nhớ nhất: Appshots là cách bạn chỉ thị cho Codex xem một thứ trên máy tính; Browser, Chrome và Computer Use là các cách để Codex hành động.

Hiện tại, Appshots được tạo qua ứng dụng Codex trên macOS. Nó chụp cửa sổ phía trước nhất, không toàn bộ màn hình. Điều này rất hữu ích: bạn cung cấp ngữ cảnh tập trung, mà không cần cấp quyền kiểm soát ứng dụng đó.

Cách theo dõi tiến trình

Các giao diện này thay đổi rất nhanh. Nếu bạn muốn có chi tiết thực tiễn, đừng chờ tổng kết lớn:

Theo dõi Ari Weinstein (@AriX) để cập nhật về Computer Use và Appshots;

Theo dõi James Sun (@JamesZmSun) để biết về các nội dung liên quan đến Browser;

Theo dõi Andrew Ambrosino (@ajambrosino) để cập nhật về phát hành ứng dụng Codex, và các câu chuyện lớn về sản phẩm desktop;

Theo dõi OpenAI Developers (@OpenAIDevs) để biết các tin tức rộng hơn về Codex và Nền tảng OpenAI.

[Liên kết nguyên bản]

Nhấn để biết về các vị trí tuyển dụng của Rhythm BlockBeats

Chào mừng gia nhập cộng đồng chính thức của BlockBeats:

Telegram: https://t.me/theblockbeats

Nhóm Telegram: https://t.me/BlockBeats_App

Twitter chính thức: https://twitter.com/BlockBeatsAsia

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim