智譜推出 AutoGLM 2.0：手機 Agent 的「Manus 時刻」？

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

（來源：極客公園）

當 AI 不再搶手機，手機 Agent 可能就真正可用了。

作者｜連冉

編輯｜鄭玄

8 月 18 日，智譜正式發布了新的 ToC 產品 AutoGLM 2.0——一個手機通用 Agent。

3 月份發布的 AutoGLM，在操作任務時，「人只能看着，沒有其他選擇，也不能做其他事情」。這種本地「搶屏」的方案導致了人與機器「二選一」的局面。

比如要用一個 Agent 在手機上點一杯咖啡，用戶能做的就是「看着」，等它完成任務。這種模式讓 AI 帶來的整體效率提升被限制在 1.x 倍的範圍內，並不能實現生產力的倍增。

現在，當 AutoGLM 再次進入公衆視野，情形已有所不同。在 2.0 版本的 AutoGLM 上，每位用戶都將擁有一部雲手機與一台雲電腦，只需一句指令，Agent 便可在雲端自動執行操作、跨應用協作，並完成整套任務。

這意味着 AI 可以 7x24 小時在雲端獨立「打工」，不再幹擾前台操作，人與 AI 的協作範式，也正從「你盯着我幹」的同步模式，更新為「你忙你的，我幹我的」的異步並行模式。

當 AI 擁有了獨立行動的「身體」和「工位」，一個新的、由 Agent 驅動的並行數字世界，似乎正在打開。

從「搶屏」到「雲端分身」

先回到那個核心痛點。過去，無論是 AutoGLM 的早期版本，還是其他類似的嘗試，AI 的每一步操作，都實時反映在用戶的物理螢幕上。這種「搶屏」模式帶來了幾個障礙：

首先是效率問題，AI 工作時，人必須等待，人機之間是「二選一」的互斥關係。這使得總效率提升有限，並沒有達到理想中的生產力倍增。

其次是執行中斷的可能，鎖屏、網絡波動、切換應用等任何用戶行為都可能中斷 Agent 的長任務流。AI 難以在用戶非關注時段（如睡眠、娛樂時）持續工作，其價值被大打折扣。

最後還有適配的難題，安卓系統的碎片化，讓本地適配成本居高不下。每一個手機品牌、每一個系統版本，都可能影響 Agent 的穩定運行。

AutoGLM 的新方案是用「雲端原生」取代「本地鏡像」。它為每個用戶在雲端部署了一個完整的安卓環境（雲手機）和一個 Linux 環境（雲電腦，後續將支持 Windows）。

當用戶下達指令，例如「去美團找附近的奶茶店，點 20 杯，記得用優惠券」，整個任務流——從打開 App、跳過廣告、搜索店鋪、選擇商品、連續點擊增加數量，到智能選用優惠券——這些都是在那台雲端手機上運行。

而用戶的物理手機則依舊自由。用戶可以繼續聊天、看視頻，或者息屏把它放進口袋。AI 的工作與用戶的操作在物理上完全解耦，互不干擾。用戶只需在任務列表中查看進度，並在支付、發布等關鍵節點回來「確認」一下即可。

在智譜的閉門交流會上，產品負責人劉瀟現場演示了這一核心體驗。當他用一台 iPhone 向 AutoGLM 下達運營小紅書的任務——「製作並發布一個介紹 AutoGLM 的視頻，風格要適配自媒體」，Agent 在雲端開始了高效工作。它高併發地搜索了十幾個關鍵詞，快速瀏覽多個網頁，隨後完成了信息收集和文案撰寫，並自動開始製作視頻。

而在此期間，劉瀟又在雲手機上演示了點奶茶和「在抖音刷到小貓視頻為止」的娛樂任務。

據官方介紹，AutoGLM 目前已能在雲端操作包括抖音、小紅書、美團、京東在內的超過 40 款高頻應用。

這背後是智譜對未來人機協作關係的洞察。智譜 CEO 張鵬在會上分享了一個觀點：未來個人競爭力的核心，將是「自身能力 + N 個 AI 智能體」的總和。每個人都將從「打工者」轉變為「領導者」，核心能力不再是事必躬親地執行，而是「會溝通、會安排任務、會指揮」。

AutoGLM 的雲端架構，是這一理念的產品化落地。它讓 AI 開始成為了一個可以 7x24 小時並行工作的「數字員工」，打破了「AI 必須在你眼皮底下操作」的障礙，讓用戶可以將那些耗時、重複、甚至超出自己能力範圍的任務，「外包」給這個雲端分身。

在實際操作中，我試了一下用 AutoGLM 在美團小象超市買一盒椰子水，發起任務前，需要先接管雲機-登入任務涉及的 app 賬號-退出接管-正常發起任務，以及在支付環節也需要手動操作，其他則確實是可以自動完成，並且在任務啓動前還會自己潤色需求，自己加上了「用掉紅包」，但就是速度堪憂，還不如自己拿手機點來的快。

圖片來源：極客公園

隨後，我又在電腦上嘗試了一個任務「在知乎熱榜第一的話題下回答問題」，中間可能是因為出現了一個是否執行操作的確認點沒及時確認，所以自動重啓了任務，所以當我從別的頁面切回去時，看到的就是下面這個情況。

圖片來源：極客公園

在我接管電腦確認了操作點之後，可以看到 AutoGLM 進行了一番執行：

圖片來源：極客公園

這個任務執行的就有點……

指令是「在知乎熱榜第一的話題下回答問題」，結果只是找到知乎熱榜第一的話題，然後停留在話題下就算完成任務，並沒有「回答」這個操作。

或許是指令不夠詳細？於是我更新了一下指令，換成「找到知乎熱榜第一的話題，並針對問題寫 200 字的回答，寫完之後直接發布」，新開了一個任務。

這次確實寫了回答，但是由於系統連接限制，還是得手動提交回答：

圖片來源：極客公園

這是它寫的兩百字回答：

還有一個問題是，有一些用戶在使用 AutoGLM 發布小紅書內容時，遇到了會被強制下線、被鎖機器碼等情況，可能是觸發了風控。

驅動 Agent 的「3A 原則」與「在線強化學習」

如果說「雲手機/雲電腦」是 AutoGLM 的新「身體」，那麼其背後強大的模型、訓練方法論和產品原則，則是這具身體得以高效運轉的「大腦」。

在與團隊的交流中，極客公園了解到 AutoGLM 的產品哲學可以被提煉為「3A 原則」。

這三大原則，共同構成了 AutoGLM 對一個成熟 Agent 形態的定義，也解釋了其當前產品架構。

過去，許多 Agent 的訓練依賴於監督微調（SFT），即學習人類專家的操作軌跡。這種方法的弊端是「泛化能力差」——AI 只會模仿它見過的操作，對於未見過的場景或界面改動，往往束手無策。

為了讓 Agent 在複雜多變的真實環境中（數千個併發的手機、電腦、瀏覽器環境）真正具備完成任務的能力，AutoGLM 團隊選擇了端到端在線強化學習的技術路線。

其核心思想是，在經過少量專家數據「冷啓動」後，讓模型在數千個並行的真實雲環境中，像人類一樣去「試錯」。系統不再告訴模型「下一步該點哪裏」，而是只在任務最終完成時給予一個「成功」的獎勵信號（Reward）。

模型必須自己探索出最優的決策路徑。

這對工程的挑戰是巨大的，需要一個能同時調度和監控數千台雲電腦、雲手機的龐大系統。

在具體的技術實現上，智譜進一步披露了其在強化學習方面的多項突破成果：例如在電腦端，提出了 API-GUI 協同範式以提升數據多樣性（ComputerRL）；在移動端，則創新了難度自適應強化學習方法，以提升複雜任務的穩定性（MobileRL）；同時通過交叉採樣等機制，解決了多任務訓練中的不穩定問題（AgenRL）。

這些具體的技術創新，共同構成了 AutoGLM 在複雜環境中高成功率的底層保障。

據智譜披露，通過在線強化學習，AutoGLM 的任務成功率相較於冷啓動階段提升了 165%，超過 66% 的成功率增益來源於此。

「我們發現，只要能提供足夠好的‘環境（Environment）’和‘獎勵（Reward）’，現有算法幾乎可以優化任何任務，」劉瀟分享道，「瓶頸已經不在算法本身，而在於如何構建可規模化的驗證和反饋環境。」

這種「模型即 Agent」的理念，也體現在其底座模型上。GLM-4.5 和 GLM-4.5V 從預訓練階段開始，就為 Agent 任務進行了深度優化，被稱為「Agentic Language Model」。

從底層開始的原生設計，使得 AutoGLM 在多個公開基準測試中表現出色。比如，在考察電腦操作能力的 OSWorld Benchmark 中，AutoGLM 獲得 48.1 分，超越了 ChatGPT Agent 和 Anthropic 的模型。

技術路線的先進性，帶來了商業可行性上的巨大突破——成本下降。

傳統基於第三方大模型 API 構建的 Agent，單次複雜任務（如 Deep Research）的成本高達 3-5 美元。而 AutoGLM 藉助自研模型和一體化架構，將包含模型調用和虛擬機資源的單次任務成本，壓縮到了約 0.2 美元（約 1.5 元人民幣）。這已經與谷歌單次搜索約 0.02 美元的成本相差不到一個數量級。

這種數量級的成本降低，讓智譜有底氣在此次發布中不用邀請碼，直接向所有 C 端用戶開放。

成本降低，成為超級應用的潛力才能上升。

「工具」到「生態」

通過為 Agent 提供獨立的雲端運行環境和基於 GLM-4.5/4.5V 的模型能力，AutoGLM 的定位超越了單一的效率工具，開始構建一個連接多設備和服務的生態。

首先，是產品能力的縱深。除了已經展示的跨應用操作，AutoGLM 的雲電腦目標是支持 Office、Photoshop 等更專業的生產力工具。

同時，即將上線的「定時任務」功能，也會是 AI 從「被動響應」邁向「半主動規劃」的關鍵一步。想象一下，「每天早上 9 點，自動總結老闆的未讀郵件併發送摘要到我微信」，「工作日上午 10 點，自動在多平台比價下單我常喝的咖啡」，相當於半個祕書。

其次，是對硬件生態的賦能。目前的 AI 硬件，如智能眼鏡、Pin 類設備，普遍面臨算力、續航和交互的「不可能三角」。

在微型設備上堆疊重系統和大電池，體驗往往不盡人意。AutoGLM 提出的解法是，讓這些端側硬件「輕量化」，只負責感知和發起指令，而將複雜的應用操作和任務執行全部交由雲端的 Agent 完成。

交流會上展示的創意案例體現了這一點：連接了體重秤，當檢測到用戶體重超過 70kg 警戒線時，會自動觸發雲端 Agent 下單代餐；連接了氣體傳感器，當檢測到鞋櫃中氨氣/硫化氫濃度超標時，則會自動下單除臭腳墊。

這展示了一條相對完整的「物理傳感器 → 雲端 Agent → 現實世界服務」的鏈路，讓 Agent 實現了對物理世界的連接和操作。

通過開放 API 和開發者計劃，AutoGLM 正在試圖讓「萬物皆可 Agent」。

為了加速這一進程，智譜上線了「AutoGLM 移動端 API 申請通道」及「開發者生態共建計劃，開發者可以申請將 AutoGLM 的雲端執行能力封裝進自己的硬件或軟件產品中。

最後，傳統互聯網的流量天花板，是用戶的「注意力上限」——一天只有 24 小時，用了這個 App，就沒時間用那個。

Agent 創造了一種新的流量形態：並行且由需求驅動。當你只有一個單線程的注意力時，可以派出無數個並行的 Agent，幫你研究旅行攻略、對比全網物價、篩選工作資料。

這種由 AI 代理人類去使用服務的模式，可能會極大地擴充整個互聯網的有效流量池。而且，這種流量是帶着明確「成交意圖」的高質量流量，商業價值相對更高。

從另一個角度看，Agent 單任務平均超過 256k tokens 的消耗，也對上游的推理基礎設施提出了 32 倍於傳統對話場景的需求和價值密度。

在分享會的結尾，劉瀟提出了一個關於 AGI（通用人工智能）的階段性定義，他稱之為「AGI 的下限」。

當一個 Agent 能自主穩定地運行一整天（24 小時），作為你的同事或祕書，協同完成工作與生活任務，使你的綜合效率提升超過 2 倍時，AGI 的曙光初現。

AutoGLM 的這次進化，或許離這個「下限」還有距離。它仍處於早期形態，對指令的理解還很初級，也存在一些 Bug。但通過構建「雲端分身」這一核心架構，它確實開始在為 Agent 的「獨立行走」鋪平道路。

從同步操作轉變為異步委託，或許是人機協作範式的轉變的開始，未來的個人競爭力可能取決於「自身能力+N 個 AI 智能體」的模式，用戶通過下達指令，讓多個 AI 並行完成任務，從而根本性地改變個人處理日常與工作事務的方式。

更理想化一點，也許，一個你只需動動嘴，就有無數個數字分身為你打理數字世界的未來正在展開。

*頭圖來源：極客公園

本文為極客公園原創文章，轉載請聯繫極客君微信 geekparkGO

極客一問

你如何看待智譜 AutoGLM 2.0？

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

智譜推出 AutoGLM 2.0：手機 Agent 的「Manus 時刻」？

熱議股票