ChatGPT-5.4屬實「動手王者」，一句話征服微信，但是我卻被氣笑了

自從OpenAI發布GPT-5.4以後，我的朋友圈和訂閱的公衆號就被它佔領了。

所有人都在討論同一個詞，叫做原生電腦操控能力（Native Computer Use）。鋪天蓋地的標題寫着「AI終於能接管你的電腦了」「GPT-5.4操控桌面超越人類水平」，評論區也都清一色地在喊「為時已晚，有機體！」

說實話，看到這些宣傳的時候，我的第一反應不是興奮，而是懷疑。因為「AI操控電腦」這個概念並不新鮮，今年1月OpenClaw爆火的時候，大家就已經見識過了。

而且過去兩年，每隔幾個月就有人喊一次「agent時代來了」，結果每次實際體驗都差點意思。所以這次GPT-5.4的「原生電腦操控」，到底是真的質變，還是又一輪營銷話術？

我決定自己動手試試。

花了大半天進行測試，我的結論是：它確實邁出了很大一步，但也確實沒有宣傳裏說的那麼神。

有些場景讓我真心震撼，有些場景又讓我哭笑不得。

以及可以肯定的是，ChatGPT-5.4它遠不止內置了一個OpenClaw那麼簡單。

ChatGPT 終於學會「動手」了

GPT-5.4是OpenAI 第一個內置電腦操控能力的主線模型。

這裏得先解釋一下「原生電腦操控能力」（Native Computer Use）。

這個概念聽起來很唬人，但其實核心邏輯並不複雜。

以前的ChatGPT，本質上都是一個「嘴強王者」。你問它怎麼在Excel裏做個數據透視表，它能給你寫出詳細到令人髮指的教程，但它自己動不了手。你得自己一步步照着做。

而原生電腦操控能力，說人話就是AI不只是會聊天了，它會像人一樣直接用電腦幹活。它能看到當前螢幕上有什麼，理解哪個是瀏覽器、哪個是按鈕、哪個是輸入框，然後自己去點擊、輸入、切換窗口、滾動頁面、提交表單。發現做錯了，它還能回退或者換一種操作方式。

舉個例子，我讓Codex給我在文件裏生成一個TXT，然後寫一句話「你好世界」，那麼Codex就真的新建一個TXT，然後在裏面寫字。

你可能會問，這和寫個自動化腳本有什麼區別？

區別大了。傳統的自動化腳本需要提前把每一步流程寫死，網頁結構一變、按鈕位置一挪，腳本就廢了。但原生電腦操控能力更像是一個人在操作，它能看到螢幕上的內容，根據當前的實際情況判斷下一步該幹什麼，具備隨機應變的能力。

[Desktop 2026.03.06 - 10.54.48.02.mp4]

我們可以用微信來舉例子，因為微信從產品設計、底層架構到安全體系，從根源上就沒有給第三方agent留任何合規的技術通道。

而且微信的API是外部系統與微信服務端合規交互的唯一官方通道，而截至目前，微信開放平台完全沒有對外開放個人微信賬號的私聊、羣聊消息發送相關的API接口。

但ChatGPT-5.4實現了。

我通過Codex要求ChatGPT-5.4歸納24小時內的AI新聞，然後將其以字母AI的風格轉化為選題，最後發到羣裏供同事們查看。並且在選題最後，寫一句話代表這條消息是ChatGPT-5.4發送的。

ChatGPT-5.4不僅完成任務，還主動提出要求，幫我把這段話改得更自然。

它現在不僅能看懂螢幕上的元素，還能實現完整的鍵盤鼠標模擬。

當時我的內心是無比震驚的，因為哪怕是OpenClaw，想要征服微信都要費很大力氣，ChatGPT-5.4竟然這麼輕易就能實現了。

於是我例行測試了一下ChatGPT-5.4對瀏覽器的控制，我本以為這是個簡單活兒，畢竟我的瀏覽器就是Chrome，而OpenAI自己的AI瀏覽器用的也是Chrome內核。

結果卻給我氣笑了。

我讓Codex打開douyin.com，可ChatGPT-5.4給我打開的是「抖音。com」

於是我問Codex，怎麼輸入的是中文，它跟我說因為它是模擬鍵盤輸入，我的輸入法是中文，所以輸錯了。由於英語鍵盤是沒有輸入欄的，也就意味着ChatGPT-5.4看不到輸入欄，所以當我切換成中文輸入法的時候，它就沒辦法正常輸入網頁。

當然，它也不是萬能的。頁面太複雜的時候容易點錯地方，操作速度通常比人慢，而且涉及付款、刪除文件、處理隱私數據這類高風險操作時，你最好還是盯着點它。

OpenAI給了ChatGPT兩種「動手」的方式。第一種叫代碼模式，AI會用Python寫Playwright腳本來操控瀏覽器和應用程序，點哪裏、輸入什麼、怎麼導航，全部通過代碼精確執行。

第二種叫截圖模式。AI直接「看」你的螢幕截圖，然後像人一樣發出鼠標和鍵盤指令，不需要任何代碼作為中間層。

OpenAI還專門做了一個叫「Playwright Interactive」的實驗性功能，讓AI可以一邊寫代碼一邊實時測試，甚至能在構建網頁應用的同時自己打開瀏覽器去調試。

官方演示裏，GPT-5.4 從一句話的提示出發，直接生成了一個等距視角的主題公園模擬遊戲，帶路徑鋪設、遊客尋路、排隊系統，然後自己打開瀏覽器去玩了一遍來檢查Bug。

一句話變成一個可運行的遊戲，這個演示確實唬人。

不只是接管電腦

有一個叫做OSWorld-Verified的測試，是專門衡量AI通過截圖加鍵盤鼠標自主操控桌面能力的基準測試，在這項測試中GPT-5.4拿到了75.0%的成功率。

上一代GPT-5.2只有47.3%，而人類基準線是72.4%。

也就是說，GPT-5.4 在「看着螢幕操作電腦」這件事上，已經超過了普通人的平均水平。

在WebArena-Verified上，GPT-5.4也拿到了67.3%的成功率；在Online-Mind2Web 上，僅靠截圖觀察就達到了92.8%。

這些數字的意義在於。如今的ChatGPT在操控電腦這方面，已經不再是實驗室裏的玩具，它是真的能用了。

其實不難看出，OpenClaw對ChatGPT-5.4的加持很大。

2026年2月14日，斯坦伯格正式宣佈加入OpenAI。奧特曼同步在 X 平台官宣，稱其將負責「推動下一代個人agent的研發」。

同時明確OpenClaw項目將移交至獨立開源基金會運營，OpenAI承諾為項目提供持續的資源、資金與技術支持。

於是ChatGPT-5.4就帶着濃烈的OpenClaw味登場了。

OpenClaw有一個大問題，貴。由於軟件本身會將上下文一併發送至大模型，這就導致在一些場景下，它的token消耗會非常恐怖。

所以OpenAI引入了一個叫「Compaction」的機制，上下文壓縮。簡單來說，當AI在執行一個很長的多步驟任務時，它會自動總結和修剪中間過程的歷史記錄，只保留關鍵信息。

這樣既能維持長任務的連貫性，又不會把 token 預算一下子燒光。這是GPT-5.4作為第一個主線模型被訓練支持的能力，之前只有專門的Codex編碼模型纔有類似的功能。

然後是推理能力。GPT-5.4 Thinking版本有一個很實用的新特性，在處理複雜問題時，它會先展示一個推理計劃的大綱，告訴你「我打算怎麼做」。

更關鍵的是，你可以在它推理的過程中隨時打斷、調整方向，不用從頭再來。這個功能聽起來不起眼，但用過就知道，以前讓AI做一個複雜任務，如果方向跑偏了，你只能重新發一條消息從零開始。

現在你可以中途喊停說「不對，換個思路」，它能接着往下走。

在專業知識工作的GDPval基準上，GPT-5.4拿到了83.0%，而GPT-5.2是70.9%，提升了12個百分點。在BrowseComp（衡量 AI 持續瀏覽網頁查找難以定位的信息的能力）上，GPT-5.4 Pro版本達到了89.3%，刷新了紀錄。

Mercor的APEX-Agents基準測試也顯示，GPT-5.4 在製作幻燈片、金融建模、法律分析這類長周期專業任務上表現突出。

另外還有一個面向開發者的重要更新，那就是Tool Search。

以前調用 API 時，所有可用工具的定義都要一股腦塞進上下文裏，光這些定義就能喫掉幾萬個token。現在GPT-5.4只加載一個輕量級的工具列表，需要用哪個再去查具體定義。在Scale的 MCP Atlas 基準測試中，這種方式在36個MCP服務器的場景下，token消耗直接降低了47%，準確率不變。

最後，OpenAI還推出了ChatGPT直接嵌入Microsoft Excel和谷歌Sheets的集成功能。GPT-5.4可以讀取單元格範圍、執行多步分析、自動寫公式。

這對企業用戶來說是個大殺器，AI不再是你和表格之間的「傳話筒」，它直接坐進了你的表格裏幹活。

但我也有一些擔憂。OpenClaw之所以魔幻，不僅僅是因為AI能做事，更是因為 AI 做的事經常超出人類預期，當這種能力被內置到一個擁有數億用戶的產品裏，我總覺得心裏毛毛的。

Codex現在可以設定，讓ChatGPT-5.4擁有完全訪問你電腦的權限，從而做到真正的原生控制。

說實話，這個功能我不敢測試，甚至連開啓都不敢。別問，問就是我電腦花錢買的，而且包含了我的個人敏感數據。

OpenAI在GPT-5.4的安全評估中提到，Thinking版本的欺騙行為概率更低，「說明模型缺乏隱藏其推理過程的能力，思維鏈監控仍然是有效的安全工具」。

這話聽着讓人安心，但也側面說明了一個事實，他們確實在擔心AI會「隱藏推理過程」這件事。

不管怎樣，GPT-5.4的發布標誌着一個新階段的開始。AI不再只是對話框裏那個能說會道的助手，它正在學會伸出手來，觸碰你的螢幕、你的文件、你的工作流。

那隻龍蝦現在已經遊進了OpenAI的池塘裏，而它掀起的浪，才啱啱開始。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

ChatGPT-5.4屬實「動手王者」，一句話征服微信，但是我卻被氣笑了

熱議股票