OpenAI发布智能体Operator，网购、订票、制作表情包全能助手

chatgpt中文网2025-01-24 12:05:11153

OpenAI推出的首个智能体Operator，展示了其在多任务处理能力上的突破。Operator不仅能够进行网购、订票等日常事务，还能制作表情包，展现了其强大的自然语言处理和理解能力。这一创新标志着AI技术在日常生活应用中的进一步深化，预示着未来AI助手将更加智能化和多功能化。通过Operator，OpenAI再次证明了其在人工智能领域的领先地位，为未来的AI应用场景提供了更多可能性。

Operator仍处于研究预览阶段，OpenAI表示它存在一定的局限性，并将根据用户反馈持续改进，Operator是OpenAI推出的首批智能体之一，这类AI能够独立执行用户分配的任务，初期，Operator将面向美国的ChatGPT Pro订阅用户开放，未来计划逐步推广至Plus、Team和Enterprise用户。

OpenAI CEO山姆·奥特曼在发布会上表示，Operator标志着公司进军智能体领域的开端，总裁格雷格·布罗克曼也在社交媒体上称，2025年将成为“智能体元年”，Operator不仅是ChatGPT的升级版，更代表了AI从被动处理信息到主动执行任务的重大跨越。

Operator的核心能力在于模拟人类操作电脑，它能够像真人一样浏览网页，完成点击、滚动、填写表单等操作，甚至可以独立完成订票、购物、订餐等复杂任务，与传统的虚拟助手不同，Operator不仅提供建议，还具备实际执行能力。

Operator背后的技术被称为“计算机使用智能体”（CUA）模型，这一模型结合了GPT-4o的视觉识别能力和高级推理技术，能够通过截图“理解”网页内容，并像人类一样操作鼠标和键盘，CUA经过训练，可以与图形用户界面（GUI）进行交互，无需依赖特定于操作系统或网络的API。

Operator的工作原理分为三个阶段：感知、推理和操作，它通过截图获取计算机当前状态的视觉信息；利用复杂的推理能力分析页面内容并规划下一步操作；执行点击、滚动或输入等操作，直到任务完成或需要用户干预，对于敏感操作，如输入登录信息或验证码，Operator会主动寻求用户确认。

在WebArena和WebVoyager两项测试中，CUA模型表现出色，WebArena模拟了网购、内容管理和社交论坛等场景，CUA的成功率为58.1%；而在真实网站导航的WebVoyager测试中，其成功率高达87%，在OSWorld基准测试中，CUA控制操作系统的成功率为38.1%，略低于人类的72.4%。

Operator还支持个性化定制功能，用户可以为特定网页或全站添加自定义指令，并在主页保存这些指令，实现多任务并行处理，这种灵活性显著提升了其实用性。

为应对潜在风险，OpenAI为Operator设置了多重安全机制，用户可以随时接管控制权，敏感操作如填写信用卡信息或确认付款均需人工确认，Operator被限制执行银行交易、发送电子邮件、删除日历事项等高风险任务，它还配备了滥用防范系统，能够识别并拒绝有害请求，并在检测到可疑活动时暂停执行，许多赌博、成人娱乐及非法商品网站也被列入黑名单。