Как использовать компьютер с Codex? Три способа входа и границы доступа

Оригинальный заголовок: Три способа использования Codex с компьютером
Автор оригинала: jason
Перевод: Peggy, BlockBeats

Примечание редактора: В этой статье рассматриваются три входа для взаимодействия Codex с внешней средой: использование компьютера, расширение Chrome и встроенный браузер приложения. Кажется, что все они решают задачу «дать Codex возможность использовать компьютер», но соответствуют разным сценариям задач, границам разрешений и уровням доверия.

Область применения Computer Use самая широкая: он может напрямую управлять нативными приложениями, системными настройками, iOS-эмуляторами на macOS / Windows, а также выполнять рабочие процессы через несколько приложений. Подходит для GUI-процессов без API, плагинов или структурированных инструментов, но при этом медленнее и с более широкими границами разрешений. Расширение Chrome подходит для задач, зависящих от состояния входа, cookies, многопоточности и идентификации браузера, например Gmail, LinkedIn, Salesforce, внутренние панели управления или исследование с входом на нескольких сайтах. Встроенный браузер приложения больше ориентирован на разработку и отладку, особенно для локальных сервисов, визуальных багов, адаптивных макетов и комментариев по дизайну; он не наследует обычный вход в браузер пользователя, возможности более узкие, но изоляция сильнее.

Ключевой вывод статьи: Codex — это не единственный способ «использовать компьютер», важнее — выбирать наиболее узкий, безопасный и структурированный интерфейс в зависимости от задачи. Если можно использовать плагины или MCP, не стоит сразу прибегать к визуальному управлению; если задача связана с веб-разработкой, предпочтительнее встроенный браузер; когда требуется идентификация пользователя и вход в браузере, переключайтесь на Chrome; только если структурированные инструменты не справляются, а задача требует графического интерфейса, Computer Use — последний рубеж.

Appshots — это не четвертый способ управления компьютером, а инструмент «показать Codex текущий контекст экрана». Он решает проблему ввода контекста, тогда как Browser, Chrome и Computer Use — проблему действий. В совокупности эта иерархия раскрывает ключ к продукту AI-агентов: не предоставлять модели неограниченные полномочия, а постепенно сужать их, четко определять границы и сохранять за пользователем контроль за ключевыми действиями.

Ниже — оригинальный текст:

Три способа использования компьютера с помощью Codex: Computer Use, расширение Chrome и встроенный браузер приложения.

Между ними есть определенное пересечение, что иногда вызывает путаницу.

Прочитав эту статью, вы узнаете, как установить и активировать эти три метода, в каких сценариях их использовать, как связать Appshots и Developer mode, а также что написать в AGENTS.md, чтобы Codex мог самостоятельно выбирать подходящий интерфейс.

Кратко:

Несмотря на это, по возможности предпочтительнее использовать плагины или MCP. Например, плагин Slack позволяет точнее искать поток сообщений, чем просто кликать по всему в Slack; операции, выполненные через плагин GitHub, проще проверить, чем управлять страницей через Codex. Визуальное управление лучше всего применять там, где структурированные инструменты достигают границ возможностей.

Все это может быть @Computer

Computer Use — самый широкий из трех интерфейсов. Он позволяет Codex просматривать и управлять графическим интерфейсом на macOS и Windows, включая окна, меню, ввод с клавиатуры и буфер обмена в разрешенных приложениях.

Обычно он самый медленный. Структурированные плагины могут напрямую вызывать API; Computer Use требует наблюдения за интерфейсом, определения, куда кликнуть, ожидания отклика приложения и проверки следующего состояния. Этот визуальный цикл занимает время, но позволяет управлять приложениями без API.

На macOS это не обязательно мешает вам. Computer Use может работать в фоновом режиме с разрешенными приложениями, а вы продолжаете пользоваться компьютером. Часто, когда я использую Codex, он уже тихо завершает рабочий поток в фоновом режиме, пока я занят другими делами.

В зависимости от установленных и разрешенных приложений, эти действия могут включать Spotify, Xcode, системные настройки, iOS-эмуляторы или даже управление iPhone через Mirroring. Он также может переключаться между приложениями, обрабатывать рабочие процессы, пересекающие границы нескольких программ.

Когда задача зависит от следующих элементов, можно использовать его:

нативные настольные приложения, например Spotify или финансовые программы;

iOS-эмуляторы, Mirroring или другие процессы, управляемые через графический интерфейс;

системные или приложенческие настройки;

отсутствующие API или плагины источники данных;

рабочие процессы, требующие переключения между приложениями;

последний шаг в структурированной интеграции, где отсутствует автоматизация.

Установка: откройте Settings > Computer Use в Codex, нажмите Install.

Активировать: упомяните @Computer или явно попросите Codex использовать Computer Use. В будущем, по мере развития модели, он сможет активировать его самостоятельно по необходимости.

Примеры:

Мой любимый пример — случай, когда украли посылку. Amazon сообщил, что мне нужно ждать около 25 минут, чтобы связаться с поддержкой. Я передал поток в Codex через Computer Use, чтобы он каждые 5 минут проверял чат, а после появления оператора — каждую минуту, помогая вернуть деньги. Когда я вернулся после душа, возврат уже был сделан.

Use @Computer to open Spotify, find my Discover Weekly playlist, and start it. Do not change my account or subscription settings.Use @Computer to open iPhone Mirroring, reproduce the onboarding bug in the iOS app, and take a screenshot of the failing state. Fix the smallest relevant code path, then run the same flow again.

Я также использую Computer Use как «последний шаг» в структурированных рабочих потоках. Например, при публикации видео Codex может читать отзывы из Slack, редактировать код и рендерить новое видео, но интеграция Slack не позволяет загружать файлы. Тогда я использую Computer Use, чтобы нажать Add file и добавить недостающий шаг.

Это также один из самых доверенных методов. Я даю ему только один конкретный приложение или поток. Когда чувствительные приложения не связаны с задачей, я держу их закрытыми; внимательно проверяю запросы разрешений; при работе с финансами, аккаунтами, платежами, конфиденциальной информацией и системной безопасностью — контролирую лично.

Использование @Chrome для работы с несколькими вкладками и входом

Расширение Chrome для Codex позволяет ему получать доступ к уже авторизованному состоянию Chrome. Когда задача зависит от аккаунта, cookies, профилей или вкладок, уже авторизованных и открытых, лучше использовать его.

Этот интерфейс подходит для работы с:

Gmail или LinkedIn;

Salesforce или внутренними системами поддержки;

внутренними дашбордами;

исследованиями с входом на нескольких сайтах;

формами, зависящими от аккаунтов или расширений браузера.

Установка: откройте Plugins в Codex, добавьте Chrome и следуйте инструкциям. Codex предложит установить расширение Chrome и дать ему разрешения. После подключения, откройте новый поток.

Активировать: упомяните @Chrome или явно попросите использовать ваш вход в Chrome:

Use @Chrome to review the open customer account, compare it with the support ticket in the other tab, and draft the missing fields. Stop before submitting.

Задачи в Chrome работают в группах вкладок, что помогает держать связанные с одним потоком вкладки вместе. В отличие от встроенного браузера, этот интерфейс использует ваш браузерный профиль, что делает его более мощным и чувствительным.

Еще одно преимущество — управление несколькими вкладками. Chrome позволяет связать несколько вкладок с одним рабочим процессом, читать контекст на одной странице, сравнивать информацию на другой и продолжать работу на третьей. Visual control через Computer Use тоже возможен, но Chrome воспринимает задачу как браузерный рабочий поток, а не серию координатных кликов.

Недавно я передал Codex открытую вкладку Strudel Composer, чтобы он сделал музыку более интересной. Chrome предоставил ему выбранную вкладку и WebMCP-инструменты страницы. Он проанализировал структуру композиции, переписал гармонию и общую форму, изменил темп, сохранил результат и продолжил проигрывать. Не нужно искать элементы визуально — Chrome использует контекст вкладки и структурированные возможности страницы.

Я также использовал его для долгосрочного мониторинга Twitter-аккаунта. Общие инструкции:

Every day, use Chrome to check my DMs, read relevant news, and look for feedback or mentions I should know about. Add anything durable to my vault. Do not post or send messages.

Интересно не то, что Codex может открыть Twitter, а то, что эта сессия может долго оставаться в одном авторизованном рабочем окружении, связывая найденное с локальными файлами и оставляя результаты для проверки.

Здесь важна граница доверия. Веб-сайты могут считать действия Codex — клики, отправку форм, сообщения — вашими действиями. Само содержимое страницы — недоверенный ввод. Важно четко разграничить автоматические шаги (исследование, навигация, черновик) и те, что требуют вашего одобрения (отправка, публикация, покупка, подача).

Если вся задача выполняется в браузере, предпочтительнее использовать Chrome, а не Computer Use. Chrome обеспечивает нативный браузерный контекст, не расширяя доступ к рабочему столу.

Использование @Browser внутри приложения для разработки сайта

Встроенный браузер — это браузер внутри потока Codex. Он использует ту же страницу, что и Codex, что делает его особенно удобным для разработки и отладки веб-приложений.

Я обычно начинаю с:

локального сервера разработки;

предварительного просмотра по файлу;

публичных страниц без входа;

повторения визуальных багов;

проверки адаптивных макетов;

оставления комментариев по элементам страницы.

Главное ограничение — изоляция. Встроенный браузер не использует ваши обычные профили, cookies, расширения, сессии входа или открытые вкладки. Когда задача связана с аккаунтом, это ограничение; когда нет — это полезная граница.

Установка: откройте Plugins в Codex, добавьте Browser и активируйте.

Активировать: в подсказке укажите @Browser или явно попросите использовать встроенный браузер:

Use @Browser to open vite app on http://localhost:3000/, reproduce the mobile overflow bug, fix it, and verify the same route again at desktop and mobile widths.

Это создает плотный цикл обратной связи: Codex редактирует код, управляет страницей, проверяет рендеринг, делает скриншоты и повторяет проверку после исправлений.

Мой любимый аспект — аннотирование. Когда я проверяю локальное приложение, я могу кликнуть по элементу или выделить область и оставить комментарий. Стильные инструменты позволяют точнее просматривать и комментировать текст, шрифты, межстрочные расстояния и цвета. Я обычно совмещаю это с голосовым вводом и пошаговым руководством: оцениваю страницу, оставляю комментарии и продолжаю добавлять новые, пока Codex обрабатывает текущие отзывы. В итоге страница превращается в спецификацию.

Это особенно полезно для дизайна. Я часто прошу Codex подготовить одностраничный index.html с идеями, исследованиями или статусом проекта, и открыть его в встроенном браузере. Вместо описания всей идеи в подсказке, я могу прямо на странице делать пометки: «Этот уровень вложенности неправильный», «Здесь не нужно так много карточек», «Эти элементы требуют больше пространства» или «Использовать такой шрифт по всему сайту». Codex получает комментарии с скриншотами и контекстом элементов, исправляет файл и снова открывает страницу для следующего раунда.

Create a single-file index.html for this project brief and open it in the in-app @Browser.

Этот цикл больше похож на работу с дизайнером на одной доске, а не на обмен скриншотами и текстами.

Встроенный браузер также хорош для смешанных рабочих процессов. В другом потоке я открыл через него пост в X, чтобы Codex исследовал обсуждение. Страница помогла ему понять, о каком посте идет речь; затем он переключился в Twitter CLI, получил 38 ответов, включая вложенные, скрытые в браузере. Это пример принципа «использовать самый узкий интерфейс»: сначала подтвердить контекст через браузер, затем — углубиться с помощью структурированных инструментов.

Здесь есть компромисс. Встроенный браузер хорош для разработки, но не подходит для входа через Google или passkey, или для сайтов, требующих расширений. Когда важна идентификация — переключайтесь на Chrome.

Appshots

Appshot — это не четвертый способ управления компьютером. Это способ указать Codex, что именно вы хотите показать ему в текущем контексте.

На Mac двойной клик по CMD позволяет захватить последнее окно. Codex прикрепит изображение и весь доступный текст к потоку. Можно сделать Appshot для ошибки, письма, дизайна, панели настроек или формы, и просто сказать:

Это — наиболее запоминаемая модель мышления: Appshots — способ указать Codex, что именно на экране, а Browser, Chrome и Computer Use — способы его действия.

Appshots создается через приложение Codex на macOS, захватывая переднее окно, а не весь рабочий стол. Это очень удобно: можно дать фокусированный контекст без полного контроля над приложением.

Как следить за развитием

Эти интерфейсы быстро развиваются. Если хотите практических деталей, а не ждать итогового обзора:

следите за Ari Weinstein (@AriX), чтобы узнать о Computer Use и Appshots;

следите за James Sun (@JamesZmSun), чтобы узнать о Chrome;

следите за Andrew Ambrosino (@ajambrosino), чтобы быть в курсе релизов Codex и более широкой истории о настольных продуктах;

следите за OpenAI Developers (@OpenAIDevs), чтобы получать новости о Codex и OpenAI Platform.

[ссылка на оригинал]

Кликните, чтобы узнать о вакансиях в Rhythm BlockBeats

Присоединяйтесь к официальному сообществу Rhythm BlockBeats:
Telegram подписка: https://t.me/theblockbeats
Telegram чат: https://t.me/BlockBeats_App
Официальный аккаунт в Twitter: https://twitter.com/BlockBeatsAsia

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено