四小时 他做出了豆包手机平替“肉包”

中国经营报
Dec 17

  仅仅花费“4个小时”,被李云龙称为“豆包手机平替”的第一版“肉包”就被他做出来了。

  12月,“豆包AI手机”无疑是科技圈的一大焦点。月初,字节跳动与中兴通讯联合推出的“豆包手机”——努比亚M153工程样机限量发售。在官方演示视频中,豆包手机助手展示了跨应用自动比价、订票、智能管家等功能,重新定义了人机交互的可能性。该机型开售后迅速售罄,甚至在二手平台出现高价转售,成交价一度接近发售价的两倍。然而,豆包手机助手很快因触发风控机制,被微信、淘宝、美团及多家银行类App限制登录或禁止AI操作,引发市场广泛讨论。

  在豆包手机引发行业震动后,产品经理出身、如今在顺福资本专注AI投资的李云龙,萌生了自己开发类似产品的想法。在现场演示中,他介绍道:“‘肉包’无须连接电脑,也不依赖手机厂商授权,却几乎完整复现了豆包手机助手的核心能力。”

  就在接受《中国经营报》记者采访的一个多小时内,尚未进行任何推广的“肉包”在开源社区GitHub上的星标数仍在持续攀升,表明已有大量国内外开发者开始关注并试用这一项目。

  李云龙的“肉包”实践似乎也印证了一个观点:AI手机助手的技术门槛并不如想象中的那么高,真正的挑战在于模型优化、数据标注、系统权限获取以及可持续的商业模式。

  技术揭秘,四小时如何打造“肉包”

  “其实没什么技术难度。”这是李云龙在接受记者采访时的第一句话。

  整个“肉包”项目的初版开发仅耗时四小时,其中99%的代码由AI生成。“我自己可能就写了十行左右的代码,里面甚至还有错误。”他笑着说道。

  他调用了包括Claude、ChatGPT在内的六款AI助手协同工作,分别负责“肉包”的UI设计(软件界面设计)、前端开发、后端逻辑与测试部署。“我只下达指令,具体执行全部由AI完成。”

  在李云龙看来,“肉包”的核心原理并不神秘:通过高权限工具截取屏幕画面,再利用多模态大模型识别界面元素;随后结合模拟点击、滑动、返回等操作,实现了对手机应用的自动化控制。

  在执行层面,“肉包”采用了多智能体架构,包含管理者、执行者、反思者和记录者等角色。管理者负责理解用户意图并制定任务计划,执行者分析当前屏幕并执行操作,反思者则评估操作是否正确。这种设计使AI具备从错误中学习的能力,从而不断提升执行准确率。

  这款轻量化工具的核心逻辑与豆包手机高度相似:通过调用开源大模型理解用户的自然语言指令,让AI像人类一样“看懂”手机屏幕,并操作各类App完成一连串任务,例如点外卖、发布小红书文案、在多个电商平台比价等。

  事实上,在豆包手机问世之前,荣耀已展示过类似功能。IDC中国研究经理郭天翔曾指出,荣耀Magic8在今年的发布会上演示了AI操控手机的能力,而去年的Magic7发布会也曾展示“一句话点咖啡”的场景。

  就在豆包手机被主流App封禁后不久,市场以为AI手机助手可能举步维艰的情况之下,智谱却开源了“会操作手机的AI”AutoGLM,阿里也在早前就发布了同类开源项目Mobile Agent,两个开源模型均采用纯视觉方案,能实现移动设备自动化操作。

  不过值得注意的是,阿里Mobile Agent和智谱AutoGLM(开源版)均需连接电脑作为中转,而“肉包”则完全运行于手机本地,大幅降低了普通用户的使用门槛。

  李云龙解释道:“以智谱AutoGLM为例(闭源的iOS或者安卓版本),用户需在手机端的远程虚拟手机中登录个人账号,隐私风险极高;阿里Mobile Agent虽已开源,但要求用户具备安卓调试环境。相比之下,‘肉包’将执行环境保留在用户自有设备上,数据不出本地,安全性更高。”

  然而,由个人开发者耗时四小时打造的“肉包”,在性能上仍存在明显瓶颈。现场演示中,当被要求在B站哔哩哔哩)搜索关键词视频并完成点赞任务时,整个流程耗时2分54秒。

  “如果是豆包手机,应该只需十几秒。”李云龙解释称,这是因为“肉包”底层依赖的是阿里通义千问VL通用大模型,每一步操作都需要上传整屏截图至云端进行分析,导致响应迟缓。“而豆包与中兴通讯合作,获得了系统级权限,并且使用了专门针对手机操作场景微调的小模型,还投入重金对主流App(如美团、淘宝、B站)进行了人工标注。”

  所谓“标注”,即由人工标记界面中各元素的语义——例如将“+”图标标注为“创建内容”,或将不同样式的“搜索框”统一归类。这种细粒度的数据积累,使模型能快速理解上下文,避免反复推理。而“肉包”及大多数开源项目因缺乏标注资源,只能依赖通用视觉语言模型,准确率与效率自然受限。

  豆包手机之所以体验流畅,恰恰得益于其“封闭性”:仅适配单一机型努比亚M153,聚焦国内几十个高频App,通过深度标注与专属模型,就实现了更精准、高效的控制。

  AI手机的困局与出路

  “肉包”的开发经历揭示了一个现实:AI手机助手的技术门槛并不算高,真正的壁垒在于数据、生态与商业逻辑等。

  数据标注是提升AI手机助手效率的关键障碍。据李云龙估算,若要将“肉包”训练至媲美豆包手机助手的水平,至少需要300万元投入和三到四个月时间。

  “标注是一项浩大工程,需要专业团队对每个应用界面进行详细标记。”他说,“比如折叠屏与直面屏显示内容存在差异,也需要分别标注。”目前,他仅有几台测试机,但用户反馈显示,在折叠屏、异形屏上常出现坐标错乱,甚至引发系统级异常。

  大厂的封禁则是另一道难以逾越的门槛。

  豆包手机努比亚M153于12月1日开售,次日便陆续被微信、淘宝、美团及多家银行类App限制登录或禁止AI操作。“肉包”在GitHub上线后不久,也因“AI点外卖”功能被美团封禁。

  李云龙指出,大厂封禁并非针对工具本身,而是因其行为模式被识别为非人类操作——例如人类滑动屏幕的速度呈曲线变化,而机器操作则过于平滑均匀。大厂不愿开放接口,本质上是出于商业利益考量。AI会直接冲击其流量变现模型。

  360集团创始人周鸿祎也从商业逻辑角度分析指出,AI助手能直接完成订餐、购物等操作,动摇了大厂依赖“用户打开App—浏览页面—点击广告”构建的传统流量体系,使其核心KPI面临失效风险。“以往淘宝、美团等平台依靠用户停留时长和广告投放盈利,而豆包手机助手让用户无须浏览首页、观看广告即可直达目标,直接冲击了传统流量逻辑。”周鸿祎说。

  值得注意的是,尽管大厂对第三方AI助手严防死守,自身却纷纷推出内置AI服务:腾讯有“元宝”,美团有“小美”,字节跳动有“豆包”,阿里则布局了“夸克”和“通义千问”。这些“围墙花园”内的AI助手,本质上是将用户行为锁定在自家生态内,防止流量外流。这也解释了为何豆包手机在接入微信、淘宝时遭遇抵制——一旦它试图成为跨平台的“超级入口”,便直接威胁到了现有利益格局。

  更深层的难题,则在于手机操作权限与安全之间的矛盾。

  荣耀曾在2024年展示过类似能力,但在AI功能上表现得更为克制,未呈现出跨App比价下单或类似的操作。“手机厂商对用户隐私和品牌声誉高度敏感,不敢贸然开放系统底层权限。”李云龙指出,一旦开放给AI,也就意味着黑灰产和诈骗者同样可能利用这些接口。

  他认为,理想的路径是:由手机厂商作为整合者,与阿里、美团、抖音等头部App达成授权合作,在系统底层预留安全可控的AI代理接口。“这样既能保障用户体验,又能让各平台保留数据主权,同时确保AI仅作为执行者,而非决策者。”

  而在这背后,还有一个关键问题:责任归属。

  “对于微信、银行等涉及敏感信息的App而言,AI助手可能成为个人信息泄露甚至财产损失的帮凶。”上海汉盛律师事务所高级合伙人李旻表示,“监管部门为保护用户及他人信息安全、财产安全,应对AI代操作系统、使用App的行为作出必要限制。例如,在涉及个人财产的操作中,应实施最严格的监管策略,严禁授予AI操纵财产的权限;对于微信等及其他涉及他人信息的App,也应严格限制AI读取和调用的范围。此外,AI本身应提供相应保障并接受严格监管,不仅需符合相关规定,还应定期、单独取得用户授权,防止权利滥用。”

  李云龙认为,AI手机助手的终极障碍正是责任界定。目前,无论是豆包手机助手还是“肉包”,均在支付及其他关键环节强制用户二次确认,将最终决策权留给人类,以规避潜在的责任纠纷。

(文章来源:中国经营报)

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10