炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(來源:極客公園)

當 AI 不再搶手機,手機 Agent 可能就真正可用了。
作者|連冉
編輯|鄭玄
8 月 18 日,智譜正式發布了新的 ToC 產品 AutoGLM 2.0——一個手機通用 Agent。
3 月份發布的 AutoGLM,在操作任務時,「人只能看着,沒有其他選擇,也不能做其他事情」。這種本地「搶屏」的方案導致了人與機器「二選一」的局面。
比如要用一個 Agent 在手機上點一杯咖啡,用戶能做的就是「看着」,等它完成任務。這種模式讓 AI 帶來的整體效率提升被限制在 1.x 倍的範圍內,並不能實現生產力的倍增。
現在,當 AutoGLM 再次進入公衆視野,情形已有所不同。在 2.0 版本的 AutoGLM 上,每位用戶都將擁有一部雲手機與一台雲電腦,只需一句指令,Agent 便可在雲端自動執行操作、跨應用協作,並完成整套任務。
這意味着 AI 可以 7x24 小時在雲端獨立「打工」,不再幹擾前台操作,人與 AI 的協作範式,也正從「你盯着我幹」的同步模式,更新為「你忙你的,我幹我的」的異步並行模式。
當 AI 擁有了獨立行動的「身體」和「工位」,一個新的、由 Agent 驅動的並行數字世界,似乎正在打開。
01
從「搶屏」到「雲端分身」
先回到那個核心痛點。過去,無論是 AutoGLM 的早期版本,還是其他類似的嘗試,AI 的每一步操作,都實時反映在用戶的物理螢幕上。這種「搶屏」模式帶來了幾個障礙:
首先是效率問題,AI 工作時,人必須等待,人機之間是「二選一」的互斥關係。這使得總效率提升有限,並沒有達到理想中的生產力倍增。
其次是執行中斷的可能,鎖屏、網絡波動、切換應用等任何用戶行為都可能中斷 Agent 的長任務流。AI 難以在用戶非關注時段(如睡眠、娛樂時)持續工作,其價值被大打折扣。
最後還有適配的難題,安卓系統的碎片化,讓本地適配成本居高不下。每一個手機品牌、每一個系統版本,都可能影響 Agent 的穩定運行。
AutoGLM 的新方案是用「雲端原生」取代「本地鏡像」。它為每個用戶在雲端部署了一個完整的安卓環境(雲手機)和一個 Linux 環境(雲電腦,後續將支持 Windows)。
當用戶下達指令,例如「去美團找附近的奶茶店,點 20 杯,記得用優惠券」,整個任務流——從打開 App、跳過廣告、搜索店鋪、選擇商品、連續點擊增加數量,到智能選用優惠券——這些都是在那台雲端手機上運行。
而用戶的物理手機則依舊自由。用戶可以繼續聊天、看視頻,或者息屏把它放進口袋。AI 的工作與用戶的操作在物理上完全解耦,互不干擾。用戶只需在任務列表中查看進度,並在支付、發布等關鍵節點回來「確認」一下即可。
在智譜的閉門交流會上,產品負責人劉瀟現場演示了這一核心體驗。當他用一台 iPhone 向 AutoGLM 下達運營小紅書的任務——「製作並發布一個介紹 AutoGLM 的視頻,風格要適配自媒體」,Agent 在雲端開始了高效工作。它高併發地搜索了十幾個關鍵詞,快速瀏覽多個網頁,隨後完成了信息收集和文案撰寫,並自動開始製作視頻。
而在此期間,劉瀟又在雲手機上演示了點奶茶和「在抖音刷到小貓視頻為止」的娛樂任務。
據官方介紹,AutoGLM 目前已能在雲端操作包括抖音、小紅書、美團、京東在內的超過 40 款高頻應用。
這背後是智譜對未來人機協作關係的洞察。智譜 CEO 張鵬在會上分享了一個觀點:未來個人競爭力的核心,將是「自身能力 + N 個 AI 智能體」的總和。每個人都將從「打工者」轉變為「領導者」,核心能力不再是事必躬親地執行,而是「會溝通、會安排任務、會指揮」。
AutoGLM 的雲端架構,是這一理念的產品化落地。它讓 AI 開始成為了一個可以 7x24 小時並行工作的「數字員工」,打破了「AI 必須在你眼皮底下操作」的障礙,讓用戶可以將那些耗時、重複、甚至超出自己能力範圍的任務,「外包」給這個雲端分身。
在實際操作中,我試了一下用 AutoGLM 在美團小象超市買一盒椰子水,發起任務前,需要先接管雲機-登入任務涉及的 app 賬號-退出接管-正常發起任務,以及在支付環節也需要手動操作,其他則確實是可以自動完成,並且在任務啓動前還會自己潤色需求,自己加上了「用掉紅包」,但就是速度堪憂,還不如自己拿手機點來的快。
圖片來源:極客公園隨後,我又在電腦上嘗試了一個任務「在知乎熱榜第一的話題下回答問題」,中間可能是因為出現了一個是否執行操作的確認點沒及時確認,所以自動重啓了任務,所以當我從別的頁面切回去時,看到的就是下面這個情況。
圖片來源:極客公園在我接管電腦確認了操作點之後,可以看到 AutoGLM 進行了一番執行:
圖片來源:極客公園這個任務執行的就有點……
指令是「在知乎熱榜第一的話題下回答問題」,結果只是找到知乎熱榜第一的話題,然後停留在話題下就算完成任務,並沒有「回答」這個操作。
或許是指令不夠詳細?於是我更新了一下指令,換成「找到知乎熱榜第一的話題,並針對問題寫 200 字的回答,寫完之後直接發布」,新開了一個任務。
這次確實寫了回答,但是由於系統連接限制,還是得手動提交回答:
圖片來源:極客公園這是它寫的兩百字回答:
還有一個問題是,有一些用戶在使用 AutoGLM 發布小紅書內容時,遇到了會被強制下線、被鎖機器碼等情況,可能是觸發了風控。
02
驅動 Agent 的「3A 原則」與「在線強化學習」
如果說「雲手機/雲電腦」是 AutoGLM 的新「身體」,那麼其背後強大的模型、訓練方法論和產品原則,則是這具身體得以高效運轉的「大腦」。
在與團隊的交流中,極客公園了解到 AutoGLM 的產品哲學可以被提煉為「3A 原則」。
這三大原則,共同構成了 AutoGLM 對一個成熟 Agent 形態的定義,也解釋了其當前產品架構。
過去,許多 Agent 的訓練依賴於監督微調(SFT),即學習人類專家的操作軌跡。這種方法的弊端是「泛化能力差」——AI 只會模仿它見過的操作,對於未見過的場景或界面改動,往往束手無策。
為了讓 Agent 在複雜多變的真實環境中(數千個併發的手機、電腦、瀏覽器環境)真正具備完成任務的能力,AutoGLM 團隊選擇了端到端在線強化學習的技術路線。
其核心思想是,在經過少量專家數據「冷啓動」後,讓模型在數千個並行的真實雲環境中,像人類一樣去「試錯」。系統不再告訴模型「下一步該點哪裏」,而是只在任務最終完成時給予一個「成功」的獎勵信號(Reward)。
模型必須自己探索出最優的決策路徑。
這對工程的挑戰是巨大的,需要一個能同時調度和監控數千台雲電腦、雲手機的龐大系統。
在具體的技術實現上,智譜進一步披露了其在強化學習方面的多項突破成果:例如在電腦端,提出了 API-GUI 協同範式以提升數據多樣性(ComputerRL);在移動端,則創新了難度自適應強化學習方法,以提升複雜任務的穩定性(MobileRL);同時通過交叉採樣等機制,解決了多任務訓練中的不穩定問題(AgenRL)。
這些具體的技術創新,共同構成了 AutoGLM 在複雜環境中高成功率的底層保障。
據智譜披露,通過在線強化學習,AutoGLM 的任務成功率相較於冷啓動階段提升了 165%,超過 66% 的成功率增益來源於此。
「我們發現,只要能提供足夠好的‘環境(Environment)’和‘獎勵(Reward)’,現有算法幾乎可以優化任何任務,」劉瀟分享道,「瓶頸已經不在算法本身,而在於如何構建可規模化的驗證和反饋環境。」
這種「模型即 Agent」的理念,也體現在其底座模型上。GLM-4.5 和 GLM-4.5V 從預訓練階段開始,就為 Agent 任務進行了深度優化,被稱為「Agentic Language Model」。
從底層開始的原生設計,使得 AutoGLM 在多個公開基準測試中表現出色。比如,在考察電腦操作能力的 OSWorld Benchmark 中,AutoGLM 獲得 48.1 分,超越了 ChatGPT Agent 和 Anthropic 的模型。
技術路線的先進性,帶來了商業可行性上的巨大突破——成本下降。
傳統基於第三方大模型 API 構建的 Agent,單次複雜任務(如 Deep Research)的成本高達 3-5 美元。而 AutoGLM 藉助自研模型和一體化架構,將包含模型調用和虛擬機資源的單次任務成本,壓縮到了約 0.2 美元(約 1.5 元人民幣)。這已經與谷歌單次搜索約 0.02 美元的成本相差不到一個數量級。
這種數量級的成本降低,讓智譜有底氣在此次發布中不用邀請碼,直接向所有 C 端用戶開放。
成本降低,成為超級應用的潛力才能上升。
03
「工具」到「生態」
通過為 Agent 提供獨立的雲端運行環境和基於 GLM-4.5/4.5V 的模型能力,AutoGLM 的定位超越了單一的效率工具,開始構建一個連接多設備和服務的生態。
首先,是產品能力的縱深。除了已經展示的跨應用操作,AutoGLM 的雲電腦目標是支持 Office、Photoshop 等更專業的生產力工具。
同時,即將上線的「定時任務」功能,也會是 AI 從「被動響應」邁向「半主動規劃」的關鍵一步。想象一下,「每天早上 9 點,自動總結老闆的未讀郵件併發送摘要到我微信」,「工作日上午 10 點,自動在多平台比價下單我常喝的咖啡」,相當於半個祕書。
其次,是對硬件生態的賦能。目前的 AI 硬件,如智能眼鏡、Pin 類設備,普遍面臨算力、續航和交互的「不可能三角」。
在微型設備上堆疊重系統和大電池,體驗往往不盡人意。AutoGLM 提出的解法是,讓這些端側硬件「輕量化」,只負責感知和發起指令,而將複雜的應用操作和任務執行全部交由雲端的 Agent 完成。
交流會上展示的創意案例體現了這一點:連接了體重秤,當檢測到用戶體重超過 70kg 警戒線時,會自動觸發雲端 Agent 下單代餐;連接了氣體傳感器,當檢測到鞋櫃中氨氣/硫化氫濃度超標時,則會自動下單除臭腳墊。
這展示了一條相對完整的「物理傳感器 → 雲端 Agent → 現實世界服務」的鏈路,讓 Agent 實現了對物理世界的連接和操作。
通過開放 API 和開發者計劃,AutoGLM 正在試圖讓「萬物皆可 Agent」。
為了加速這一進程,智譜上線了「AutoGLM 移動端 API 申請通道」及「開發者生態共建計劃,開發者可以申請將 AutoGLM 的雲端執行能力封裝進自己的硬件或軟件產品中。
最後,傳統互聯網的流量天花板,是用戶的「注意力上限」——一天只有 24 小時,用了這個 App,就沒時間用那個。
Agent 創造了一種新的流量形態:並行且由需求驅動。當你只有一個單線程的注意力時,可以派出無數個並行的 Agent,幫你研究旅行攻略、對比全網物價、篩選工作資料。
這種由 AI 代理人類去使用服務的模式,可能會極大地擴充整個互聯網的有效流量池。而且,這種流量是帶着明確「成交意圖」的高質量流量,商業價值相對更高。
從另一個角度看,Agent 單任務平均超過 256k tokens 的消耗,也對上游的推理基礎設施提出了 32 倍於傳統對話場景的需求和價值密度。
在分享會的結尾,劉瀟提出了一個關於 AGI(通用人工智能)的階段性定義,他稱之為「AGI 的下限」。
當一個 Agent 能自主穩定地運行一整天(24 小時),作為你的同事或祕書,協同完成工作與生活任務,使你的綜合效率提升超過 2 倍時,AGI 的曙光初現。
AutoGLM 的這次進化,或許離這個「下限」還有距離。它仍處於早期形態,對指令的理解還很初級,也存在一些 Bug。但通過構建「雲端分身」這一核心架構,它確實開始在為 Agent 的「獨立行走」鋪平道路。
從同步操作轉變為異步委託,或許是人機協作範式的轉變的開始,未來的個人競爭力可能取決於「自身能力+N 個 AI 智能體」的模式,用戶通過下達指令,讓多個 AI 並行完成任務,從而根本性地改變個人處理日常與工作事務的方式。
更理想化一點,也許,一個你只需動動嘴,就有無數個數字分身為你打理數字世界的未來正在展開。
*頭圖來源:極客公園
本文為極客公園原創文章,轉載請聯繫極客君微信 geekparkGO
極客一問
你如何看待智譜 AutoGLM 2.0?