⚽ 預測世界盃,瓜分 $40,000!Gate 懂王集結令!
2026世界盃燃爆今夏,來 Gate 廣場當預言家,豪華獎池等您來戰!
💥 輕鬆兩步參與:
1️⃣ 帶 #广场预测世界杯赢40000U 發帖,或分享官方活動至廣場發帖
👉️ https://www.gate.com/competition/football-2026
2️⃣ 發帖內容可圍繞賽事結果預測、賽事勝率分析、交易策略/截圖分享等。
💰 三重大獎等您拿:
1️⃣ 日獎:每天評選 10 位“單日預測王”瓜分 $500!
2️⃣ 周獎:每周狂抽 50 名幸運分享錦鯉瓜分 $1,000!
3️⃣ 榜單獎:衝進周/月度排行榜,斬獲 Gate 世界盃限量球衣禮盒、預測市場體驗券!
詳情:https://www.gate.com/announcements/article/51597
Codex如何使用電腦?三種入口與權限邊界
編者按:這篇文章梳理了 Codex 操作外部環境的三種入口:Computer Use、Chrome 擴展和應用內 Browser。三者看似都在解決「讓 Codex 使用電腦」的問題,但對應的是不同的任務場景、權限邊界和信任級別。
其中,Computer Use 覆蓋面最廣,可以直接操作 macOS / Windows 上被授權的原生應用、系統設置、iOS 模擬器,甚至跨多個應用完成工作流程。它適合那些沒有 API、插件或結構化工具支持的 GUI 流程,但代價是速度更慢,權限邊界也最寬。Chrome 擴展則適合依賴登入狀態、Cookies、多標籤頁和瀏覽器身份的任務,例如 Gmail、LinkedIn、Salesforce、內部後台,或跨多個網站的已登入研究。應用內 Browser 更偏向開發和調試場景,尤其適合本地服務、視覺 bug、響應式佈局和設計批注;它不繼承用戶正常瀏覽器的登入狀態,能力更窄,但隔離性也更強。
文章的核心判斷是,Codex 並不是只有一種「用電腦」的方式,真正重要的是根據任務選擇最窄、最安全、最結構化的操作界面。能用插件或 MCP,就不應先動用視覺控制;任務只涉及網頁開發,就優先使用應用內 Browser;需要用戶瀏覽器身份和登入狀態時,再切換到 Chrome;只有當結構化工具無法覆蓋,且任務必須依賴桌面圖形界面時,Computer Use 才是最後一公里。
Appshots 則不是第四種控制電腦的方式,而是把當前螢幕上下文「指給 Codex 看」的工具。它解決的是上下文輸入問題,而 Browser、Chrome 和 Computer Use 解決的是行動問題。放在一起看,這套分層實際揭示了 AI Agent 產品化的關鍵:不是讓模型獲得無限權限,而是在具體任務中不斷收窄權限、明確邊界,並讓用戶保留對關鍵行動的審核權。
以下為原文:
Codex 使用電腦有三種方式:Computer Use、Chrome 擴展,以及應用內瀏覽器。
它們之間有一定重疊,剛好重疊到容易讓人困惑。
讀完這篇文章,你會知道如何安裝並觸發這三種方式,分別該在什麼場景下使用,Appshots 和 Developer mode 如何把它們連接起來,以及該在 AGENTS.md 裡寫些什麼,讓 Codex 能自己選擇合適的操作界面。
簡單版是:
話雖如此,只要可以,還是優先使用插件或 MCP。比如 Slack 插件能比在 Slack 裡到處點擊更精準地檢索一個線程;GitHub 插件產生的操作,也比讓 Codex 驅動網頁更容易檢查。視覺控制最適合用在結構化工具能力到達邊界的地方。
一切都可以是 @Computer
Computer Use 是這三種操作界面裡覆蓋面最廣的一個。它讓 Codex 能夠在 macOS 和 Windows 上查看並操作圖形界面,包括視窗、選單、鍵盤輸入,以及你授權應用裡的剪貼簿。
它通常也是最慢的。結構化插件可以直接調用 API;Computer Use 則需要觀察界面、判斷該點擊哪裡、等待應用回應,再檢查下一步狀態。這個視覺循環會消耗時間,但也意味著 Codex 可以操作那些完全沒有可用 API 的應用。
在 macOS 上,慢並不一定意味著會打擾你。Computer Use 可以在背景操作你授權的應用,而你仍然可以繼續使用電腦的其他部分。很多時候,我在用 Codex 時打開某個應用,才發現 Codex 已經在背景安靜地完成了一套工作流程。
根據你電腦上安裝並授權了哪些應用,這些操作對象可以包括 Spotify、Xcode、System Settings、iOS 模擬器,甚至是用 iPhone Mirroring 控制你的 iPhone。它也可以在多個應用之間切換,處理跨越不同應用的工作流程。
當任務依賴以下內容時,可以使用它:
原生桌面應用,比如 Spotify 或金融類應用;
iOS 模擬器、iPhone Mirroring,或其他只能通過圖形界面操作的流程;
系統或應用設置;
沒有插件或 API 的資料源;
需要在多個應用之間切換的工作流程;
某個結構化集成裡缺失的最後一步操作。
安裝方式:打開 Codex 的 Settings > Computer Use,然後點擊 Install。
觸發方式:提到 @Computer,或者明確要求 Codex 使用 Computer Use。隨著模型能力提升,未來在需要時它也會自己調用。
可以先試幾個例子:
我最喜歡的一個例子,起因是一個包裹被偷了。Amazon 告訴我,要等大約 25 分鐘才能接通客服。我把一個 Codex 線程交給 Computer Use,讓它每五分鐘檢查一次聊天視窗,等客服出現後改為每分鐘檢查一次,並盡力幫我拿到退款。等我洗完澡回來,退款已經完成了。
我也把 Computer Use 用作結構化工作流程裡的「最後一公里」。在一次發布影片中,Codex 可以從 Slack 讀取反饋、修改代碼並渲染新影片,但當時該線程裡的 Slack 整合無法上傳檔案。於是 Computer Use 點擊了 Add file,補上了這個缺失的步驟。
它也是三者中信任邊界最寬的一種。一次只給它一個明確的應用或流程。當某些敏感應用不是任務的一部分時,保持關閉;仔細檢查權限彈窗;涉及金融、帳戶、支付、憑證、隱私和系統安全變更時,最好人在場監督。
用 @Chrome 處理多標籤頁和登入狀態
Codex Chrome 擴展讓 Codex 能訪問你已經登入的 Chrome 狀態。當任務依賴帳號、cookies、瀏覽器配置檔,或你已經打開並認證過的標籤頁時,就應該使用它。
這類操作界面適合以下工具中的工作:
Gmail 或 LinkedIn;
Salesforce 或客服後台;
內部儀表板;
跨多個網站的已登入研究;
依賴你的帳號或瀏覽器擴展的表單。
安裝方式:打開 Codex 的 Plugins,添加 Chrome,並按照設置流程操作。Codex 會引導你安裝 Codex Chrome 擴展,並批准 Chrome 權限。當擴展顯示 Connected 後,開啟一個新線程。
觸發方式:提到 @Chrome,或者明確要求 Codex 使用你已登入的 Chrome 瀏覽器:
Chrome 任務會在標籤頁組裡運行,這有助於把某個 Codex 線程相關的標籤頁放在一起。和應用內瀏覽器不同,這個操作界面攜帶的是你的瀏覽器身份。這讓它能力更強,也更敏感。
另一個主要優勢是多標籤頁控制。Chrome 可以讓多個標籤頁與同一個任務關聯起來,在一個頁面裡讀取上下文,在另一個頁面裡對照資訊,再到第三個頁面繼續工作流程。Computer Use 也可以透過視覺方式驅動瀏覽器,但 Chrome 會把任務理解為一個瀏覽器工作流程,而不是一連串螢幕座標操作。
最近有一個線程,我把一個已經打開的 Strudel Composer 標籤頁交給 Codex,讓它把音樂做得更有趣。Chrome 給了它被選中的標籤頁,以及這個頁面暴露出來的 WebMCP 工具。Codex 檢查了樂曲結構,重寫了和聲和四分鐘的整體形式,修改了速度,保存了曲目,並讓它繼續播放。它不需要在界面上視覺搜尋每一個控件,因為 Chrome 可以把標籤頁上下文和頁面提供的結構化能力結合起來。
我還用它跑一個長期 Twitter 線程。大致指令是:
有意思的地方,不是 Codex 能打開 Twitter,而是這個線程可以長期回到同一個已登入工作環境,把發現的內容連結到本地檔案,並留下可供我審核的結果。
這裡的信任邊界很重要。網站可能會把 Codex 的點擊、表單提交和訊息發送視為你本人採取的行動。網頁內容本身也是不可信輸入。把後果較重的步驟明確區分出來:研究、導航和起草可以自動完成;發送、發布、購買或提交之前,需要你審核。
如果整個任務都在瀏覽器裡完成,優先用 Chrome,而不是 Computer Use。Chrome 擁有這類任務需要的瀏覽器原生上下文,同時不會把存取範圍擴大到整個桌面。
用應用內 @Browser 處理你正在開發的網站
應用內瀏覽器是存在於 Codex 線程內部的瀏覽器。你和 Codex 共享同一個渲染頁面,所以它特別適合構建和調試 Web 應用。
我通常會從這裡開始處理:
本地開發伺服器;
基於檔案的預覽頁面;
不需要登入的公開頁面;
復現視覺 bug;
檢查響應式佈局;
留下針對頁面元素的設計反饋。
它最重要的約束是隔離。應用內瀏覽器不會使用你的普通瀏覽器配置檔、cookies、擴展、登入會話或現有標籤頁。當任務需要帳號身份時,這是一個限制;但當任務不需要帳號時,這反而是一個有用的邊界。
設置方式:打開 Codex 的 Plugins,添加 Browser 插件並啟用它。
觸發方式:在提示詞裡提到 @Browser,或者明確要求 Codex 使用應用內瀏覽器:
這會形成一個緊密反饋循環:Codex 可以編輯代碼、操作頁面、檢查渲染狀態、截圖,然後在修復後重新驗證同一流程。
我最喜歡的部分是標註。當我評審一個本地應用時,可以直接點擊某個元素,或選中一塊區域並留下評論。樣式控件也讓我可以更精準地預覽和反饋文字、字體、間距和顏色。我通常會把它和語音輸入、過程引導結合起來:我評審頁面、留下評論,並在 Codex 處理當前反饋時繼續排隊添加更多意見。這個頁面本身就變成了規格說明書。
這對設計工作尤其有用。我經常要求 Codex 把一個想法、一份研究包,或一個專案狀態整理成一個單檔 index.html,然後用應用內瀏覽器打開它。比起在另一個提示詞裡試圖描述整套設計,我可以直接在真實頁面上標註:「這個層級關係反了」「這裡不要那麼像卡片」「這些控件需要更多空間」,或者「全站都用這個字號比例」。Codex 會收到帶有相關截圖和元素上下文的評論,修改檔案,然後重新打開同一頁面進入下一輪。
這個循環感覺更接近於和一位設計師在同一張畫布上工作,而不是來回傳截圖和文字說明。
應用內瀏覽器也適合作為混合工作流程的起點。在另一個線程裡,我用應用內瀏覽器打開了一條 X 貼文,讓 Codex 調查相關討論。可見頁面幫助它確認我指的是哪一條貼文;隨後 Codex 切換到 Twitter CLI,檢索了 38 條回覆,其中包括瀏覽器視圖隱藏掉的嵌套回覆。這就是「使用最窄操作界面」原則的實踐:用瀏覽器確認螢幕上的上下文,再用結構化工具做更深層檢索。
這裡也有取捨。應用內瀏覽器的隔離性讓它成為很好的開發界面,但也意味著它不適合處理 Google 登入、passkey,或依賴瀏覽器擴展的網站。當身份很重要時,切換到 Chrome。
Appshots
Appshot 不是 Codex 控制電腦的第四種方式。它是一種把 Codex 指向你眼前上下文的方法。
在 Mac 上,按兩次 CMD 鍵,就可以捕捉最近的視窗。Codex 會把一張圖片和所有可用文本附加到線程裡。你可以對一個錯誤、一封郵件、一個設計、一個設置面板,或者一個陌生表單做 Appshot,然後直接說:
這就是我覺得最容易記住的心智模型:Appshots 是你用來指向電腦上某個東西的方式;Browser、Chrome 和 Computer Use 則是 Codex 采取行動的方式。
Appshots 目前通過 macOS 上的 Codex 應用建立。它捕捉的是最前面的視窗,而不是整個桌面。這使它成為一種很有用的方式:你可以提供聚焦的上下文,而無需授予對該應用的控制權。
如何跟進這些進展
這些操作界面變化很快。如果你想獲得實用細節,而不是等待一篇巨大的發布總結:
關注 Ari Weinstein(@AriX),了解 Computer Use 和 Appshots;
關注 James Sun(@JamesZmSun),了解 Browser 相關內容;
關注 Andrew Ambrosino(@ajambrosino),了解 Codex 應用發布,以及更大的桌面產品敘事;
關注 OpenAI Developers(@OpenAIDevs),了解更廣泛的 Codex 和 OpenAI Platform 新聞。
[原文連結]
點擊了解律動BlockBeats 在招崗位
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia