登录
注册
Codex 与外部环境的交互并非单一维度的“使用计算机”,而是构建了一套包含计算机使用、Chrome 扩展程序以及应用内浏览器的分层架构。这三种方式虽目标一致,但在任务场景、权限范围及信任等级上存在显著差异。午方 AI 梳理发现,这种分层设计的核心逻辑在于根据具体任务选择最狭隘、最安全且最具结构化的操作界面,而非默认赋予模型无限权限。当存在插件或 MCP 支持时,视觉控制不应作为首选;仅当结构化工具无法覆盖桌面图形用户界面任务时,才启用计算机使用模式。
计算机使用模式拥有最广泛的适用范围,允许 Codex 直接操作 macOS 和 Windows 系统上的图形用户界面,包括窗口、菜单、键盘输入及剪贴板数据。尽管其运行速度因需观察界面、定位点击并等待响应而较慢,但它能处理缺乏 API 支持的原生应用任务。在 macOS 环境下,该模式可在后台静默运行,支持操作 Spotify、Xcode、系统设置、iOS 模拟器甚至通过镜像控制 iPhone。午方 AI 注意到,该模式特别适用于原生桌面应用、系统配置、跨应用工作流以及结构化集成中的“最后一步”操作,例如在 Slack 插件不支持文件上传时,利用视觉操作完成文件提交。
然而,计算机使用模式的权限范围最广,涉及财务、账户、支付凭证及系统安全等敏感内容时,必须有人在场监督并仔细核对权限请求。相比之下,Chrome 扩展程序专为依赖登录状态、cookies 及多标签页管理的任务设计,适用于 Gmail、LinkedIn、Salesforce 等工具。该模式保留用户的浏览器身份信息,允许 Codex 在同一标签页组内操作多个页面,将任务视为完整的浏览器工作流而非单纯的屏幕坐标操作。例如,在优化 Strudel Composer 音乐效果时,Chrome 扩展不仅提供页面上下文,还结合 WebMCP 工具,使 Codex 能直接分析和声结构并保存修改,无需手动寻找控件。
应用内浏览器则定位于开发与调试场景,提供与 Codex 共享的渲染页面,适合处理本地服务、检查视觉错误及测试响应式布局。其核心优势在于隔离性,不继承用户的常规浏览器设置、cookies 或登录会话,从而在无需身份验证的任务中提供保护。午方 AI 分析认为,这种模式构建了紧密的反馈循环:Codex 可编辑代码、操作页面、截图并修复问题,随后重新执行流程。通过点击页面元素留下设计注释,开发者可将页面本身转化为规格说明文档,实现类似与设计师在同一画布上协作的体验。
Appshot 并非第四种控制手段,而是解决上下文输入问题的工具,通过捕获当前最前窗口截图及文本信息,帮助 Codex 识别屏幕对象。这种机制在不授予控制权限的前提下提供针对性上下文,完美诠释了“最狭隘界面”原则:先通过浏览器确认内容,再利用结构化工具深入搜索。例如,在分析 X 平台帖子时,先通过应用内浏览器可视化确认目标,再切换至命令行检索隐藏的 38 条回复。随着用户界面功能的快速演进,明确界定各模式的权限边界,将是确保 AI 智能体产品化安全与可控的关键所在。