ChatGPT官网

OpenAI发布智能体Operator,网购、订票、制作表情包全能助手

chatgpt中文网2025-01-24 12:05:1187
OpenAI推出的首个智能体Operator,展示了其在多任务处理能力上的突破。Operator不仅能够进行网购、订票等日常事务,还能制作表情包,展现了其强大的自然语言处理和理解能力。这一创新标志着AI技术在日常生活应用中的进一步深化,预示着未来AI助手将更加智能化和多功能化。通过Operator,OpenAI再次证明了其在人工智能领域的领先地位,为未来的AI应用场景提供了更多可能性。

Operator仍处于研究预览阶段,OpenAI表示它存在一定的局限性,并将根据用户反馈持续改进,Operator是OpenAI推出的首批智能体之一,这类AI能够独立执行用户分配的任务,初期,Operator将面向美国的ChatGPT Pro订阅用户开放,未来计划逐步推广至Plus、Team和Enterprise用户。

OpenAI CEO山姆·奥特曼在发布会上表示,Operator标志着公司进军智能体领域的开端,总裁格雷格·布罗克曼也在社交媒体上称,2025年将成为“智能体元年”,Operator不仅是ChatGPT的升级版,更代表了AI从被动处理信息到主动执行任务的重大跨越。

Operator的核心能力在于模拟人类操作电脑,它能够像真人一样浏览网页,完成点击、滚动、填写表单等操作,甚至可以独立完成订票、购物、订餐等复杂任务,与传统的虚拟助手不同,Operator不仅提供建议,还具备实际执行能力。

Operator背后的技术被称为“计算机使用智能体”(CUA)模型,这一模型结合了GPT-4o的视觉识别能力和高级推理技术,能够通过截图“理解”网页内容,并像人类一样操作鼠标和键盘,CUA经过训练,可以与图形用户界面(GUI)进行交互,无需依赖特定于操作系统或网络的API。

Operator的工作原理分为三个阶段:感知、推理和操作,它通过截图获取计算机当前状态的视觉信息;利用复杂的推理能力分析页面内容并规划下一步操作;执行点击、滚动或输入等操作,直到任务完成或需要用户干预,对于敏感操作,如输入登录信息或验证码,Operator会主动寻求用户确认。

在WebArena和WebVoyager两项测试中,CUA模型表现出色,WebArena模拟了网购、内容管理和社交论坛等场景,CUA的成功率为58.1%;而在真实网站导航的WebVoyager测试中,其成功率高达87%,在OSWorld基准测试中,CUA控制操作系统的成功率为38.1%,略低于人类的72.4%。

Operator还支持个性化定制功能,用户可以为特定网页或全站添加自定义指令,并在主页保存这些指令,实现多任务并行处理,这种灵活性显著提升了其实用性。

为应对潜在风险,OpenAI为Operator设置了多重安全机制,用户可以随时接管控制权,敏感操作如填写信用卡信息或确认付款均需人工确认,Operator被限制执行银行交易、发送电子邮件、删除日历事项等高风险任务,它还配备了滥用防范系统,能够识别并拒绝有害请求,并在检测到可疑活动时暂停执行,许多赌博、成人娱乐及非法商品网站也被列入黑名单。

尽管如此,Operator仍存在一些局限性,它无法可靠处理复杂或专业任务,如创建详细幻灯片、管理复杂日历系统或与非标准网页交互,部分网站(如Reddit)已禁止AI智能体访问,而资源密集型网站(如Figma)或竞争对手平台(如YouTube)也被限制访问。

奥特曼在发布会上透露,Operator只是OpenAI推出的首批智能体之一,未来几周和几个月内还将发布更多智能体,随着AI智能体的涌现,AI正从被动的信息处理工具转变为主动的数字生态系统参与者,无论是简化日常事务,还是创新商业流程,AI的实用性正不断提升,人类与AI的协作,正从想象逐渐变为现实。

参考资料:

- OpenAI官网:Introducing Operator

- OpenAI官网:Computer-Using Agent

- TechCrunch:OpenAI Launches Operator

- VentureBeat:Meet OpenAI’s Operator

本文链接:https://ai2025.cc/chatgpt/113.html

ChatGPT智能体OperatorOpenAI

相关文章

网友评论