炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:极客公园)
这次 Plus 用户也能用。
作者|Li Yuan
一个共识是,AI 今年的大主题,是 Agent。
如果说过去我们习惯了 AI 的“动嘴”,那么接下来,就是 AI“动手”的时代。毕竟,既然 AI 已经能听懂、又足够聪明,那为什么不能直接把事儿干完?
2025 年下半场刚开局,一直在定义 AI 的 OpenAI,突然端出了他们的 Agent 答卷。不过有趣的是,乍一看,它和几个月前爆火的 Manus 模式,惊人地相似。
7 月 18 日凌晨,Sam Altman 和四位 OpenAI 研究员在直播中介绍了 OpenAI 即将推出的 Agent 模式。
简单来说,在 Agent 模式下,你可以直接对 ChatGPT 提要求:婚礼缺双鞋,去电商平台帮我买了;或者,给我设计个宠物周边,直接下单打印;查找信息,直接生成 PPT。然后,ChatGPT 会自己打开虚拟机,一步步操作。
在演示中,一个复杂任务大概需要 10 分钟完成。但从结果看,完成度很高。ChatGPT 可以在虚拟环境里可以调用文本浏览器、可视化浏览器和终端。而基于终端,还可以进一步调用云服务 API、图片生成器,运行代码等。
更关键的,这次 OpenAI 不再 Pro 用户优先,Plus、Team 用户也将能很快上手,每月可用 40 次。量大,管饱。
Sam Altman 用他标志性的真诚眼神,对着屏幕说:这是一个全新的范式。就像我们学会上网,最后也学会了甄别诈骗信息一样,现在,整个社会需要学习如何与 Agent 安全地交互和共存。
01
Agent 模式能干什么?
直接观看 OpenAI 的 Agent 模式演示,会发现其直观体验与几个月前爆火的 Manus 高度相似。
在用户提出需求之后,都会自动开启一个虚拟机,开始自动执行一些任务,执行过程中,Agent 会反复请求用户确认,并允许随时手动接管。同时,用户也能在任务中途植入新需求,进行实时交互。
而在 OpenAI 的介绍中,Agent 模式可以调用三种工具:文本浏览器、可视化浏览器和终端。模型可以自主选择切换各种工具。
这种工具组合的设计颇为精巧:文本浏览器负责大量浏览文字,搜寻信息,而可视化浏览器则负责定位到信息之后直接模拟一些键鼠交互,或者用来读取图像信息。
而终端,则可以运行代码,生成包括 PPT、Excel 在内的文件,和调用一些云端 API。
在 OpenAI 提供的第一个演示里,研究员提出要规划参加另一个朋友婚礼的事宜,要挑选一套符合着装要求的礼服(考虑场地、天气、中高档价位)预订酒店,同时提供礼物建议。
研究员首先在 ChatGPT 里切换到 Agent 模式,把上述需求发过去。Agent 启动虚拟电脑、加载环境(大约几秒)。
然后 ChatGPT 先试用文本浏览器打开了用户给的网页,搜索婚礼信息、着装要求、天气等。发现需要进一步确认婚礼日期时,模型也提出了澄清请求,但用户选择让它自己继续推理。
在找到了天气、场地信息后,AI 开始推荐合适的礼服,并切换到可视化浏览器检查礼服效果。完成任务后,继续搜索酒店和礼物。
可以看到,最后给出的婚礼出行建议报告非常长而详细,涵盖了服装、酒店、礼物。甚至附上了非常多的链接,在酒店是否有空位的索引上,还附上了在线预订网站的截图。
而完成这样的一份报告,AI 只花了十分钟。相比于我们熟悉的一问一答看起来时间是长了很多,但是相比于实际的工作量,AI 看起来还是要比人的效率高太多了。
如果说这个演示还是更加体现其研究能力,另一个演示则直接展示了其动手能力。
研究员要求给团队的吉祥物(是一只可爱的狗狗,昵称 Bernie)做出一批笔记本贴纸,并下单 500 张。
Agent 直接利用终端功能,调用了图像生成工具(Image Gen API)来生成一张动漫风格的狗狗插画,作为贴纸的设计图案。
接着,Agent 打开浏览器访问 Sticker Mule 网站,把设计好的图上传到网站,填写了贴纸数量、尺寸等,并把商品加入购物车。
最后它主动向用户确认,是否要用这张插画?是否继续下单?是否需要用户自己输入信用卡付款,还是让它继续完成?
任务停留在让用户接管输入信用卡,花了 7 分钟。
同样的能力,Agent 还自己连接 Google Drive API(类似于国内的网盘),读取文件之后生成了一份 PPT。
查询了赛季日程,生成了一个详细的旅行电子表格 + 带标注地图的旅行攻略。这个任务比较复杂,Agent 大约花了 25 分钟完成。
02
轻描淡写:AI 能力又进步了
OpenAI 此次推出的新 Agent 模式,实际上并不是一项全新的创新,而是由 OpenAI 上半年推出的两样工具组合而成:Operator 和 Deep Research。
Operator 是原本只开放给了 Pro 用户的浏览器 Agent 工具,能够分析图形操作界面,并做出一定的操作。
而 Deep Research,则是一个深入研究的分析工具,可以阅读大量的网页,直接生成一份调研报告。
OpenAI 表示,在两样工具分别推出的过程中,发现很多用户用 Operator 写的提示词其实更像 Deep Research 的任务,比如“计划一次旅行并预订”。而 Deep Research 用户高度呼吁增加“登录网站、访问受保护资源”的能力,其实是 Operator 早就能做的。于是团队决定将两个产品融合起来。
这和刚刚离职的 OpenAI 的工程师的 OpenAI 的团队文化其实很接近:OpenAI 内部很看重工程师的自驱力,常常有多个类似的项目同时在推进,谁想做谁就能往前推进。
此次 Operator 和 Deep Research 的融合看起来还是很成功的。两个从不同角度推动的 Agent 项目,最后融合起来,有了一些奇妙的化学反应,也避开了只使用浏览器的图形界面去阅读文字材料的低效,让最后能形成深度报告的时长变得并不高。
OpenAI 也提到了在为模型提供多种工具之后,怎样训练模型。
仍然是使用强化学习。一开始模型会“笨拙”地尝试用所有工具解决一个相对简单的问题。也就是说,它刚开始不会判断哪个工具更合适。
通过奖励它那些解决问题更高效、更合理的行为,模型能逐渐学会如何用这些工具。在什么情况下用哪个工具最合适。
比如如果是做创意作品,它会先搜索公开资源;然后用终端写代码、编译作品;最后用可视化浏览器验证结果。
而在一堆 Demo 中,OpenAI 也轻描淡写地又抛出了一个新的基准测试成绩。
在 Humanities Last Exam(人类的最后一场大考)中,能够使用浏览器、电脑和终端的 Agent 模式模型,已经能够达到 42%的高分,相比于完全不使用工具的 o3,有一倍的提升。
而在世界范围内也是领先的——Grok 宣布带工具的 Grok 4 Heavy 在测试中取得 45% 的成绩。
使用工具后的高级数学推理能力,也有了进一步的提升。
公布的基准中,有两个是和人类的对比。
一个是在网页中操作的能力(WebArena),一个是操作电子表格的能力(SpreadsheetBench)。可以看到,两项基准中,Agent 模式仍然不如人类,但是网页操作,已经追近了人类水平。
这意味着,即便只是整合这些本身尚不如人类的工具,大模型也能获得显著的能力提升。Agent 时代,大模型能力的提升显然还有更高的天花板。
03
和 Agent 共处的时代,确实来了
毫无疑问,Agent 是 2025 年 AI 领域的绝对风口。
但风口之下,用户的真实体感往往并不完美:任务运行时间过长;稍复杂的任务就频频出错。一位早期 Operator 用户评论道“每次点击和滚动,都像在炎热夏日中游泳。”
此次 OpenAI 将 Operator 与 Deep Research 融合,或许正是为了缓解这种“粘滞感”,让 Agent 真正跑起来。
当 OpenAI 自己下场,一个更直接的问题摆在了所有类似 Manus 的第三方开发者面前:这究竟是会催生一个繁荣的 Agent 应用生态,还是会直接碾压所有创业公司?答案尚不明朗。
而对于用户而言,一个更切身的挑战随之而来:隐私和安全。
当 AI 在我们看不见的虚拟机里,点开一个网页、输入我们的个人信息时,谁来保证安全?
如果它被钓鱼网站骗走了我们的信用卡号,责任谁负?
OpenAI 对此的回应是,他们会采取极其严格的审查和安全措施,但它也希望整个社会都能花时间去适应和建立规范。
Agent时代,确实是继Chat时代之后,一个截然不同的新阶段。
在Chat时代,我们学会了适应AI的“嘴”——我们慢慢习惯了它的幻觉,并学会在它的花言巧语中甄别真伪。这是一个关于“信息可信度”的挑战。
而在Agent时代,挑战则完全转向了AI的“手”。我们需要回答一系列全新的问题:我们究竟愿意多信任 AI?我们又愿意把多大的权限交出去,让它代替我们完成多少现实世界的事情?
而我们与AI的关系,也将因此被重新定义。
从更宏观的视角看,Agent 的爆发也将再次将一个老问题以更尖锐的方式推到我们面前:当 AI 能真正“干活”时,我们的工作会怎样?
当 AI 能独立完成一份包含数据检索、图像查证的复杂报告,并直接完成在线预订时,白领们的工作究竟是被赋能加速,还是被彻底威胁?
答案尚在风中飘。
但无论我们欢迎、恐惧还是茫然,一个由 Agent 驱动的、更自动化的新时代,确实正在加速到来。
*头图来源:OpenAI
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你认为 OpenAI 在 Agent 领域目前领先吗?
马斯克:当有比人类更聪明的东西出现时,会发生什么呢?
点赞关注 极客公园视频号 ,
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.