僅僅花費「4個小時」,被李雲龍稱為「豆包手機平替」的第一版「肉包」就被他做出來了。
12月,「豆包AI手機」無疑是科技圈的一大焦點。月初,字節跳動與中興通訊聯合推出的「豆包手機」——努比亞M153工程樣機限量發售。在官方演示視頻中,豆包手機助手展示了跨應用自動比價、訂票、智能管家等功能,重新定義了人機交互的可能性。該機型開售後迅速售罄,甚至在二手平台出現高價轉售,成交價一度接近發售價的兩倍。然而,豆包手機助手很快因觸發風控機制,被微信、淘寶、美團及多家銀行類App限制登入或禁止AI操作,引發市場廣泛討論。
在豆包手機引發行業震動後,產品經理出身、如今在順福資本專注AI投資的李雲龍,萌生了自己開發類似產品的想法。在現場演示中,他介紹道:「‘肉包’無須連接電腦,也不依賴手機廠商授權,卻幾乎完整復現了豆包手機助手的核心能力。」
就在接受《中國經營報》記者採訪的一個多小時內,尚未進行任何推廣的「肉包」在開源社區GitHub上的星標數仍在持續攀升,表明已有大量國內外開發者開始關注並試用這一項目。
李雲龍的「肉包」實踐似乎也印證了一個觀點:AI手機助手的技術門檻並不如想象中的那麼高,真正的挑戰在於模型優化、數據標註、系統權限獲取以及可持續的商業模式。
技術揭祕,四小時如何打造「肉包」
「其實沒什麼技術難度。」這是李雲龍在接受記者採訪時的第一句話。
整個「肉包」項目的初版開發僅耗時四小時,其中99%的代碼由AI生成。「我自己可能就寫了十行左右的代碼,裏面甚至還有錯誤。」他笑着說道。
他調用了包括Claude、ChatGPT在內的六款AI助手協同工作,分別負責「肉包」的UI設計(軟件界面設計)、前端開發、後端邏輯與測試部署。「我只下達指令,具體執行全部由AI完成。」
在李雲龍看來,「肉包」的核心原理並不神祕:通過高權限工具截取螢幕畫面,再利用多模態大模型識別界面元素;隨後結合模擬點擊、滑動、返回等操作,實現了對手機應用的自動化控制。
在執行層面,「肉包」採用了多智能體架構,包含管理者、執行者、反思者和記錄者等角色。管理者負責理解用戶意圖並制定任務計劃,執行者分析當前螢幕並執行操作,反思者則評估操作是否正確。這種設計使AI具備從錯誤中學習的能力,從而不斷提升執行準確率。
這款輕量化工具的核心邏輯與豆包手機高度相似:通過調用開源大模型理解用戶的自然語言指令,讓AI像人類一樣「看懂」手機螢幕,並操作各類App完成一連串任務,例如點外賣、發佈小紅書文案、在多個電商平台比價等。
事實上,在豆包手機問世之前,榮耀已展示過類似功能。IDC中國研究經理郭天翔曾指出,榮耀Magic8在今年的發佈會上演示了AI操控手機的能力,而去年的Magic7發佈會也曾展示「一句話點咖啡」的場景。
就在豆包手機被主流App封禁後不久,市場以為AI手機助手可能舉步維艱的情況之下,智譜卻開源了「會操作手機的AI」AutoGLM,阿里也在早前就發佈了同類開源項目Mobile Agent,兩個開源模型均採用純視覺方案,能實現移動設備自動化操作。
不過值得注意的是,阿里Mobile Agent和智譜AutoGLM(開源版)均需連接電腦作為中轉,而「肉包」則完全運行於手機本地,大幅降低了普通用戶的使用門檻。
李雲龍解釋道:「以智譜AutoGLM為例(閉源的iOS或者安卓版本),用戶需在手機端的遠程虛擬手機中登入個人賬號,隱私風險極高;阿里Mobile Agent雖已開源,但要求用戶具備安卓調試環境。相比之下,‘肉包’將執行環境保留在用戶自有設備上,數據不出本地,安全性更高。」
然而,由個人開發者耗時四小時打造的「肉包」,在性能上仍存在明顯瓶頸。現場演示中,當被要求在B站(嗶哩嗶哩)搜索關鍵詞視頻並完成讚好任務時,整個流程耗時2分54秒。
「如果是豆包手機,應該只需十幾秒。」李雲龍解釋稱,這是因為「肉包」底層依賴的是阿里通義千問VL通用大模型,每一步操作都需要上傳整屏截圖至雲端進行分析,導致響應遲緩。「而豆包與中興通訊合作,獲得了系統級權限,並且使用了專門針對手機操作場景微調的小模型,還投入重金對主流App(如美團、淘寶、B站)進行了人工標註。」
所謂「標註」,即由人工標記界面中各元素的語義——例如將「+」圖標標註為「創建內容」,或將不同樣式的「搜索框」統一歸類。這種細粒度的數據積累,使模型能快速理解上下文,避免反覆推理。而「肉包」及大多數開源項目因缺乏標註資源,只能依賴通用視覺語言模型,準確率與效率自然受限。
豆包手機之所以體驗流暢,恰恰得益於其「封閉性」:僅適配單一機型努比亞M153,聚焦國內幾十個高頻App,通過深度標註與專屬模型,就實現了更精準、高效的控制。
AI手機的困局與出路
「肉包」的開發經歷揭示了一個現實:AI手機助手的技術門檻並不算高,真正的壁壘在於數據、生態與商業邏輯等。
數據標註是提升AI手機助手效率的關鍵障礙。據李雲龍估算,若要將「肉包」訓練至媲美豆包手機助手的水平,至少需要300萬元投入和三到四個月時間。
「標註是一項浩大工程,需要專業團隊對每個應用界面進行詳細標記。」他說,「比如摺疊屏與直面屏顯示內容存在差異,也需要分別標註。」目前,他僅有幾台測試機,但用戶反饋顯示,在摺疊屏、異形屏上常出現座標錯亂,甚至引發系統級異常。
大廠的封禁則是另一道難以逾越的門檻。
豆包手機努比亞M153於12月1日開售,次日便陸續被微信、淘寶、美團及多家銀行類App限制登入或禁止AI操作。「肉包」在GitHub上線後不久,也因「AI點外賣」功能被美團封禁。
李雲龍指出,大廠封禁並非針對工具本身,而是因其行為模式被識別為非人類操作——例如人類滑動螢幕的速度呈曲線變化,而機器操作則過於平滑均勻。大廠不願開放接口,本質上是出於商業利益考量。AI會直接衝擊其流量變現模型。
360集團創始人周鴻禕也從商業邏輯角度分析指出,AI助手能直接完成訂餐、購物等操作,動搖了大廠依賴「用戶打開App—瀏覽頁面—點擊廣告」構建的傳統流量體系,使其核心KPI面臨失效風險。「以往淘寶、美團等平台依靠用戶停留時長和廣告投放盈利,而豆包手機助手讓用戶無須瀏覽首頁、觀看廣告即可直達目標,直接衝擊了傳統流量邏輯。」周鴻禕說。
值得注意的是,儘管大廠對第三方AI助手嚴防死守,自身卻紛紛推出內置AI服務:騰訊有「元寶」,美團有「小美」,字節跳動有「豆包」,阿里則佈局了「夸克」和「通義千問」。這些「圍牆花園」內的AI助手,本質上是將用戶行為鎖定在自家生態內,防止流量外流。這也解釋了為何豆包手機在接入微信、淘寶時遭遇抵制——一旦它試圖成為跨平台的「超級入口」,便直接威脅到了現有利益格局。
更深層的難題,則在於手機操作權限與安全之間的矛盾。
榮耀曾在2024年展示過類似能力,但在AI功能上表現得更為剋制,未呈現出跨App比價下單或類似的操作。「手機廠商對用戶隱私和品牌聲譽高度敏感,不敢貿然開放系統底層權限。」李雲龍指出,一旦開放給AI,也就意味着黑灰產和詐騙者同樣可能利用這些接口。
他認為,理想的路徑是:由手機廠商作為整合者,與阿里、美團、抖音等頭部App達成授權合作,在系統底層預留安全可控的AI代理接口。「這樣既能保障用戶體驗,又能讓各平台保留數據主權,同時確保AI僅作為執行者,而非決策者。」
而在這背後,還有一個關鍵問題:責任歸屬。
「對於微信、銀行等涉及敏感信息的App而言,AI助手可能成為個人信息泄露甚至財產損失的幫兇。」上海漢盛律師事務所高級合夥人李旻表示,「監管部門為保護用戶及他人信息安全、財產安全,應對AI代操作系統、使用App的行為作出必要限制。例如,在涉及個人財產的操作中,應實施最嚴格的監管策略,嚴禁授予AI操縱財產的權限;對於微信等及其他涉及他人信息的App,也應嚴格限制AI讀取和調用的範圍。此外,AI本身應提供相應保障並接受嚴格監管,不僅需符合相關規定,還應定期、單獨取得用戶授權,防止權利濫用。」
李雲龍認為,AI手機助手的終極障礙正是責任界定。目前,無論是豆包手機助手還是「肉包」,均在支付及其他關鍵環節強制用戶二次確認,將最終決策權留給人類,以規避潛在的責任糾紛。
(文章來源:中國經營報)