不光控制你的心,ChatGPT 现在还要控制你的电脑

爱范儿
18 Jul

Agent 世界

要不太平了

“野蛮人”来了

还记得那个让你沉迷对话、忘记时间的 ChatGPT 吗?现在,它不仅要占据你的注意力,还要接管你的整台电脑。

从最初的文本生成工具,到如今能够自主操作浏览器、运行代码、生成文档的智能助手,ChatGPT 正在完成一次彻底的进化。它不再满足于在对话框里回答问题,而是要真正“动起来”——代替你点击、搜索、分析、创作,甚至帮你完成从婚礼准备到工作汇报的所有任务。

这,就是 OpenAI 在今天凌晨,最新发布的 ChatGPT Agent 功能。

——一个既能理解复杂目标,又能使用用户电脑上的多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合任务流的智能体。

Agent 玩家们,迎来“门口的野蛮人”

通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成 PPT 或表格等,并可在执行过程中实时展示相应步骤、接受临时中断和修改指令。

看到这,你或许有种似曾相识的感觉。ChatGPT 这个新功能其实与 3 月份大火的 Manus 在体验层面颇为相似。而 Manus 也正面回应了 OpenAI 这位竞争对手的入场。

凌晨发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道:

观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的“感受 AGI”时刻;看到计算机思考、计划和执行,有种与众不同的感觉。

亮点如下:

ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统;

内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果;

可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流;

在多项基准测试中表现领先,综合性能位居行业前列;

Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额;

亮点如下:在 ChatGPT Agent 发布之后,好几家在主攻 Agent 方向的创业公司,纷纷坐立难安。他们的反应无外乎:我们比 OpenAI 做的早;我们做的效果比 ChatGPT 更好。

Genspark 反应

但无论如何,ChatGPT 还是 ChatGPT。Agent 的游戏房里之后要不太平了。因为 OpenAI 这个“野蛮人”,杀到门口了。

你的浏览器要被 ChatGPT 接管了

今天开始,你可以在任何对话中,通过聊天界面左下角的“工具”下拉菜单,选择“Agent 模式”来启用这一功能。

输入你想完成的任务,ChatGPT Agent 就能浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,PPT、电子表格等任务也都能信手拈来。

整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动接管浏览器继续操作,确保任务始终符合你的目标和需求。

在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。

比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。

在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求,而执行这样一个任务只需十分钟左右。

更重要的是,用户还可以随时中断任务。

比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了“帮我找一双 9.5 码黑色正装鞋”的请求,模型立刻暂停当前任务,转而处理新需求。

同样地,当 Agent 认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。

“这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,”OpenAI 研究员解释道。

这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。

ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。

用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。

任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制 500 份贴纸的下单明细。

当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。

通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。

一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成 PPT。收到命令后,Agent 成功调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并完成任务。

这类自动化能力,都是 Agent 深度嵌入工作流的体现。

不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。

需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。

The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台“虚拟机”(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。

而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。

对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版和教育版将在未来几周内陆续上线。

Pro 用户每月可使用 400 次,主打一个量大管饱,而其他付费用户每月可使用 40 次,并可通过弹性积分方案购买更多额度。

全线刷新“跑分”记录,Agent 战场迎来最强对手

ChatGPT Agent 能力的提升,也体现在“跑分”环节。

在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,ChatGPT Agent 以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。

在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。

在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。

在一个内部的投行建模任务基准中,ChatGPT Agent 的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。

此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。

从平台视角看,Agent 能力的底层接口,正是浏览器。

在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的“杀手级应用”。在他看来,浏览器天然具备让 AI 真正“动起来”的全部条件。

不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。

浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。

在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。

如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。

当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10