ChatGPT-5.4属实“动手王者”,一句话征服微信,但是我却被气笑了

字母榜
Yesterday

自从OpenAI发布GPT-5.4以后,我的朋友圈和订阅的公众号就被它占领了。

所有人都在讨论同一个词,叫做原生电脑操控能力(Native Computer Use)。铺天盖地的标题写着“AI终于能接管你的电脑了”“GPT-5.4操控桌面超越人类水平”,评论区也都清一色地在喊“为时已晚,有机体!”

说实话,看到这些宣传的时候,我的第一反应不是兴奋,而是怀疑。因为“AI操控电脑”这个概念并不新鲜,今年1月OpenClaw爆火的时候,大家就已经见识过了。

而且过去两年,每隔几个月就有人喊一次“agent时代来了”,结果每次实际体验都差点意思。所以这次GPT-5.4的“原生电脑操控”,到底是真的质变,还是又一轮营销话术?

我决定自己动手试试。

花了大半天进行测试,我的结论是:它确实迈出了很大一步,但也确实没有宣传里说的那么神。

有些场景让我真心震撼,有些场景又让我哭笑不得。

以及可以肯定的是,ChatGPT-5.4它远不止内置了一个OpenClaw那么简单。

01

ChatGPT 终于学会“动手”了

GPT-5.4是OpenAI 第一个内置电脑操控能力的主线模型。

这里得先解释一下“原生电脑操控能力”(Native Computer Use)。

这个概念听起来很唬人,但其实核心逻辑并不复杂。

以前的ChatGPT,本质上都是一个“嘴强王者”。你问它怎么在Excel里做个数据透视表,它能给你写出详细到令人发指的教程,但它自己动不了手。你得自己一步步照着做。

而原生电脑操控能力,说人话就是AI不只是会聊天了,它会像人一样直接用电脑干活。它能看到当前屏幕上有什么,理解哪个是浏览器、哪个是按钮、哪个是输入框,然后自己去点击、输入、切换窗口、滚动页面、提交表单。发现做错了,它还能回退或者换一种操作方式。

举个例子,我让Codex给我在文件里生成一个TXT,然后写一句话“你好 世界”,那么Codex就真的新建一个TXT,然后在里面写字。

你可能会问,这和写个自动化脚本有什么区别?

区别大了。传统的自动化脚本需要提前把每一步流程写死,网页结构一变、按钮位置一挪,脚本就废了。但原生电脑操控能力更像是一个人在操作,它能看到屏幕上的内容,根据当前的实际情况判断下一步该干什么,具备随机应变的能力。

[Desktop 2026.03.06 - 10.54.48.02.mp4]

我们可以用微信来举例子,因为微信从产品设计、底层架构到安全体系,从根源上就没有给第三方agent留任何合规的技术通道。

而且微信的API是外部系统与微信服务端合规交互的唯一官方通道,而截至目前,微信开放平台完全没有对外开放个人微信账号的私聊、群聊消息发送相关的API接口。

但ChatGPT-5.4实现了。

我通过Codex要求ChatGPT-5.4归纳24小时内的AI新闻,然后将其以字母AI的风格转化为选题,最后发到群里供同事们查看。并且在选题最后,写一句话代表这条消息是ChatGPT-5.4发送的。

ChatGPT-5.4不仅完成任务,还主动提出要求,帮我把这段话改得更自然。

它现在不仅能看懂屏幕上的元素,还能实现完整的键盘鼠标模拟。

当时我的内心是无比震惊的,因为哪怕是OpenClaw,想要征服微信都要费很大力气,ChatGPT-5.4竟然这么轻易就能实现了。

于是我例行测试了一下ChatGPT-5.4对浏览器的控制,我本以为这是个简单活儿,毕竟我的浏览器就是Chrome,而OpenAI自己的AI浏览器用的也是Chrome内核。

结果却给我气笑了。

我让Codex打开douyin.com,可ChatGPT-5.4给我打开的是“抖音。com”

于是我问Codex,怎么输入的是中文,它跟我说因为它是模拟键盘输入,我的输入法是中文,所以输错了。由于英语键盘是没有输入栏的,也就意味着ChatGPT-5.4看不到输入栏,所以当我切换成中文输入法的时候,它就没办法正常输入网页。

当然,它也不是万能的。页面太复杂的时候容易点错地方,操作速度通常比人慢,而且涉及付款、删除文件、处理隐私数据这类高风险操作时,你最好还是盯着点它。

OpenAI给了ChatGPT两种“动手”的方式。第一种叫代码模式,AI会用Python写Playwright脚本来操控浏览器和应用程序,点哪里、输入什么、怎么导航,全部通过代码精确执行。

第二种叫截图模式。AI直接“看”你的屏幕截图,然后像人一样发出鼠标和键盘指令,不需要任何代码作为中间层。

OpenAI还专门做了一个叫“Playwright Interactive”的实验性功能,让AI可以一边写代码一边实时测试,甚至能在构建网页应用的同时自己打开浏览器去调试。

官方演示里,GPT-5.4 从一句话的提示出发,直接生成了一个等距视角的主题公园模拟游戏,带路径铺设、游客寻路、排队系统,然后自己打开浏览器去玩了一遍来检查Bug。

一句话变成一个可运行的游戏,这个演示确实唬人。

02

不只是接管电脑

有一个叫做OSWorld-Verified的测试,是专门衡量AI通过截图加键盘鼠标自主操控桌面能力的基准测试,在这项测试中GPT-5.4拿到了75.0%的成功率。

上一代GPT-5.2只有47.3%,而人类基准线是72.4%。

也就是说,GPT-5.4 在“看着屏幕操作电脑”这件事上,已经超过了普通人的平均水平。

在WebArena-Verified上,GPT-5.4也拿到了67.3%的成功率;在Online-Mind2Web 上,仅靠截图观察就达到了92.8%。

这些数字的意义在于。如今的ChatGPT在操控电脑这方面,已经不再是实验室里的玩具,它是真的能用了。

其实不难看出,OpenClaw对ChatGPT-5.4的加持很大。

2026年2月14日,斯坦伯格正式宣布加入OpenAI。奥特曼同步在 X 平台官宣,称其将负责 “推动下一代个人agent的研发”。

同时明确OpenClaw项目将移交至独立开源基金会运营,OpenAI承诺为项目提供持续的资源、资金与技术支持。

于是ChatGPT-5.4就带着浓烈的OpenClaw味登场了。

OpenClaw有一个大问题,贵。由于软件本身会将上下文一并发送至大模型,这就导致在一些场景下,它的token消耗会非常恐怖。

所以OpenAI引入了一个叫“Compaction”的机制,上下文压缩。简单来说,当AI在执行一个很长的多步骤任务时,它会自动总结和修剪中间过程的历史记录,只保留关键信息。

这样既能维持长任务的连贯性,又不会把 token 预算一下子烧光。这是GPT-5.4作为第一个主线模型被训练支持的能力,之前只有专门的Codex编码模型才有类似的功能。

然后是推理能力。GPT-5.4 Thinking版本有一个很实用的新特性,在处理复杂问题时,它会先展示一个推理计划的大纲,告诉你“我打算怎么做”。

更关键的是,你可以在它推理的过程中随时打断、调整方向,不用从头再来。这个功能听起来不起眼,但用过就知道,以前让AI做一个复杂任务,如果方向跑偏了,你只能重新发一条消息从零开始。

现在你可以中途喊停说“不对,换个思路”,它能接着往下走。

在专业知识工作的GDPval基准上,GPT-5.4拿到了83.0%,而GPT-5.2是70.9%,提升了12个百分点。在BrowseComp(衡量 AI 持续浏览网页查找难以定位的信息的能力)上,GPT-5.4 Pro版本达到了89.3%,刷新了纪录。

Mercor的APEX-Agents基准测试也显示,GPT-5.4 在制作幻灯片、金融建模、法律分析这类长周期专业任务上表现突出。

另外还有一个面向开发者的重要更新,那就是Tool Search。

以前调用 API 时,所有可用工具的定义都要一股脑塞进上下文里,光这些定义就能吃掉几万个token。现在GPT-5.4只加载一个轻量级的工具列表,需要用哪个再去查具体定义。在Scale的 MCP Atlas 基准测试中,这种方式在36个MCP服务器的场景下,token消耗直接降低了47%,准确率不变。

最后,OpenAI还推出了ChatGPT直接嵌入Microsoft Excel和谷歌Sheets的集成功能。GPT-5.4可以读取单元格范围、执行多步分析、自动写公式。

这对企业用户来说是个大杀器,AI不再是你和表格之间的“传话筒”,它直接坐进了你的表格里干活。

但我也有一些担忧。OpenClaw之所以魔幻,不仅仅是因为AI能做事,更是因为 AI 做的事经常超出人类预期,当这种能力被内置到一个拥有数亿用户的产品里,我总觉得心里毛毛的。

Codex现在可以设置,让ChatGPT-5.4拥有完全访问你电脑的权限,从而做到真正的原生控制。

说实话,这个功能我不敢测试,甚至连开启都不敢。别问,问就是我电脑花钱买的,而且包含了我的个人敏感数据。

OpenAI在GPT-5.4的安全评估中提到,Thinking版本的欺骗行为概率更低,“说明模型缺乏隐藏其推理过程的能力,思维链监控仍然是有效的安全工具”。

这话听着让人安心,但也侧面说明了一个事实,他们确实在担心AI会“隐藏推理过程”这件事。

不管怎样,GPT-5.4的发布标志着一个新阶段的开始。AI不再只是对话框里那个能说会道的助手,它正在学会伸出手来,触碰你的屏幕、你的文件、你的工作流。

那只龙虾现在已经游进了OpenAI的池塘里,而它掀起的浪,才刚刚开始。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10