2025年7月18日,OpenAI 正式发布了 ChatGPT Agent,这是继 GPT-4 多模态模型之后,OpenAI 在AI应用层面迈出的又一重要步伐。与以往仅能生成文本的聊天机器人不同,ChatGPT Agent 具备“行动能力”——它能够理解用户用自然语言下达的指令,主动选择并使用合适的网络工具,完成一系列需要人机交互的复杂任务。例如,用户可以说:“帮我研究一下特斯拉和比亚迪的最新财报,并做成一份PPT。” 而Agent会自动打开浏览器,搜索数据,筛选信息,甚至调用PPT模板完成制作。
这一产品的推出,标志着AI从“被动回答问题”进化到“主动执行任务”,真正实现了“你说我做”的人机协作模式。
ChatGPT Agent 可以处理多种复杂任务,例如:
用户只需用自然语言描述需求,例如:“帮我查一下下周三的团队会议时间,如果和我的客户会议冲突,就自动将团队会议推迟到周四上午10点,并通知所有参会者。” Agent 会依次执行日历查询、时间比对、日程修改、通知发送等步骤。
Agent 内置“虚拟浏览器”,可以像真实用户一样与网站进行交互。它能够:
具体案例:一位市场研究人员让 Agent “在亚马逊上搜索最新款智能手表,按销量排序,提取前5名的价格、评分和用户评价摘要”。Agent 会自动打开亚马逊,输入关键词,点击排序按钮,逐页获取数据,并整理成表格返回给用户。
OpenAI 特别强调了安全机制的设计:
ChatGPT Agent 具备动态学习能力。在执行任务过程中,它会根据用户反馈和任务结果自动优化执行速度、准确性和效率。例如,如果用户多次纠正它对某个网站的操作方式,Agent 会记住偏好,下次同类任务中自动调整。此外,用户可以在任何时候中断对话,引导任务方向,实现真正的人机协同。
用户可通过以下步骤使用ChatGPT Agent: 1. 激活功能:在 ChatGPT 编辑器中的工具下拉菜单选择“Agent模式”; 2. 描述任务:用自然语言输入任务指令,例如“请帮我将这份Excel中的销售额数据按月份汇总,并制作成柱状图”; 3. 实时监控与调整:Agent 会实时展示其操作流程(如正在访问哪个网站、填写哪个字段),用户可随时点击“暂停”或“接管”进行手动干预。
OpenAI 在隐私保护方面做了多重设计:
ChatGPT Agent 即日起向 Pro、Plus 和 Team 版 用户开放。Enterprise 和 Education 版 用户将在2025年7月底前获得使用权限。OpenAI 表示,虽然当前版本功能强大,但在处理复杂多步骤任务时仍有优化空间,未来将持续改进,拓展其应用范围,例如支持更多第三方应用接口和离线操作。
Q1:ChatGPT Agent 和普通 ChatGPT 有什么区别? A:普通ChatGPT只能生成文本回答,而Agent可以主动操作网页工具(如浏览器、在线表格、日历等),完成需要点击、填写、搜索等实际动作的任务。
Q2:Agent 会泄露我的隐私吗? A:不会。Agent 的所有操作都需用户授权,浏览数据、登录信息等完全由用户控制,OpenAI 不会存储或用于训练。
Q3:Agent 能处理多长的任务? A:目前支持单次会话中连续执行数十个步骤的任务,复杂任务(如跨国旅行规划)可能需要多次对话澄清细节。
Q4:我可以在手机上使用Agent吗? A:目前主要支持桌面端浏览器,移动端版本正在开发中,预计2025年底前推出。
Q5:如果Agent操作出错怎么办? A:用户可以随时中断任务,手动纠正错误后让Agent继续,或重新描述指令从头开始。
Q6:Agent 需要额外付费吗? A:目前包含在Pro、Plus和Team版的订阅费用中,无需额外付费。Enterprise和Education版用户上线后也将包含该功能。
Q7:Agent 能访问哪些网站? A:Agent 可以访问公开的互联网网站,但需要登录的网站(如企业内网、银行系统)需要用户提供账号密码,且每次登录均需用户授权。
ChatGPT Agent 的推出,不仅是OpenAI产品线的又一次扩展,更代表着AI从“信息提供者”向“任务执行者”的角色转变。它将对话能力与网络交互能力深度融合,让用户从繁琐的重复性工作中解放出来,专注于更具创造性的决策。尽管目前仍有提升空间,但这一创新工具无疑为工作、生活与学术研究带来了更高效、更智能的解决方案,开启了人机协作的全新纪元。
(注:本站所有内容均为AIHub.cn原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。)