一场没有“罗永浩”的直播,为百度AI正名

市场资讯
Jun 23, 2025

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

作者 | Yoky

邮箱 | yokyliu@pingwest.com

5500万GMV,这可能是迄今为止,一个AI数字人单次直播带来的最高销量。

过去几年内,数字人直播代替真人主播的传言总是一波又一波,空无一人的直播基地无数手机屏幕“自动地”产生着GMV,这个画面曾经击中了无数网友的心。但现实是,这些数字人们机械重复的动作、无法随机应变的话术反而让真人主播们都松了一口气。

但这次,真正的转折点来了。6月15日,罗永浩数字人在百度直播的第一次亮相,连播近7小时,达成了1300万人次观看、GMV突破5500万的成绩,不仅破了AI数字人圈里的记录,甚至超过了真人的记录——互动量超真人直播间3倍。

一直以来,数字人技术成熟度的一个核心评判标准,都是与真人主是否存在差距,以及有多大的差距。而在此次的直播间,弹幕里“这是真的还是假的”的评论不断刷屏,已经证实了这次AI数字人的惊人效果。

更重要的是,这不是一次炫技式的表演,而是百度AI在真实商业环境的实战演练。当整个行业还在为文生视频的“确定性” ,百度已经用AI为商家和创作者们端起了第一个能真正“养活”自己的“饭碗”。

1

如何用AI炼成“真”罗永浩?

这背后并非单一模型的技术突破,而是一套多模协同的数字人技术简单来说,这套技术将语言大模型置于“总导演”的位置,统筹指挥着语音、视觉等各个“演员”,完成了一场几乎以假乱真的演出。

与传统数字人技术形成鲜明对比的是,过去的方案往往采用语言、语音、视觉三条独立流水线,各自生成内容后再强行拼接,这必然导致音画不同步、表情僵硬、言语乏味等问题。

百度的技术方案重点包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新技术,实现了数字人“神、形、音、容、话”的高度统一。最终呈现出一个具备高表现力,内容吸引人,人-物-场可自由交互的超拟真数字人。

具体而言,“剧本”模型扮演了总指挥的角色。它在生成时输入的并非只有文本,而是包含商品信息、历史视频、主播人设要求等多模态信息。剧本会生成对视觉和语音的具体要求,即所谓的“标签”,为后续的视觉和语音模型提供方向性指引,从而确保内容、语气和表情在语义上的高度一致性。

百度集团副总裁吴甜告诉硅星人,多模态协同的难点在于多个模型对于要求的理解是一致的。这意味着从剧本(导演)到语音、视觉(演员),整个团队对表演基调有统一认知。同时,各个演员(各模态模型)又保有自己的“发挥空间”,比如语音模型会根据自身对文本的细粒度理解调整语调顿挫,而不是完全被剧本的词语锁死。

以罗永浩数字人剧本为例,基于文心大模型4.5 Turbo生成的剧本,充分展现了主播的个人特色,具备典型的罗氏幽默风格,并能够实现双人主播的内容协同,动态实现丰富的实时互动。

在单体完成“真老罗”的打造后,体现直播生命力的实时互动成为另一个更关键的挑战。面对评论区海量、无序的用户提问,以及与助播的配合上,数字人如何做到实时、自然的回应?这背后是一套动态决策系统。

在直播过程中,模型并非对每个问题都立即回复。系统会对评论区进行智能分析,结合主播当前的讲解节奏,选择合适的时机、合适的问题,以及合适的回答策略进行触发。这种“谋定而后动”的机制,远比简单的“一问一答”更接近真人主播的互动逻辑。

为了彻底解决实时生成的延迟问题,百度采用了“流式生成”的工程化设计。语言、语音、视觉三个模态并非串行等待,而是像流水线一样并行工作,极大缩短了用户感知的时延。同时,系统采用“离在线统一”的方法,部分可预见的交互内容可以提前处理,而需要即时反应的部分则在线动态生成。通过系统性优化,成功解决了生成视频这类高耗时任务的卡点问题,最终实现了丝滑的交互体验。

更进一步地,在双人直播中,大量的打断、复说、抢话等场景对语音合成提出了极高要求。吴甜提到,通过引入“对话上下文解码器”,模型能够结合历史对话信息进行推理,从而实现老搭档之间那种默契、自然的对话流。

在数字人形象生成以及驱动方面,百度通过结合多模态视频理解、跨模态信号生成、视频生成等技术,克服了高可控交互,高精度、长时间一致性保持等难点,实现了高一致性超拟真罗永浩数字人长视频生成。

而且在此过程中,能保证语音、口型、表情与动作始终保持高度同步,从而实现真正的“音、容、话”一致。

从炼成“罗氏幽默”到跑通商业闭环,百度数字人不仅为行业树立了新的技术标杆,更重要的是,它为AI技术如何从“热搜”走向真实的生产线,提供了一份极具说服力的答卷。

1

不要“超级应用”,要“超级有用”

对于在直播电商红海中拼杀的千万商家而言,现实的挑战正变得愈发尖锐:头部主播签约费动辄千万,自建团队每月固定开销数万甚至数十万,而流量获取成本却在持续攀升。在这种环境下,如何在保证效果的前提下控制成本,成为每个商家必须面对的生存课题。

数字人技术,一度被视为破局的希望。然而,早期的数字人更像是一个“不知疲倦的播报员”,形象呆板、互动生硬,无法传递信任,更遑论激发购买欲。它们解决了“有没有”的问题,却没能解决“好不好用”的核心痛点。市场真正需要的,不是一个仅仅能节省成本的“工具”,而是一个能真正替代真人、创造价值的“战力”。

那么,一个“真正可用”的数字人到底意味着什么?它不仅要形象逼真,更要具备三项核心能力:能理解商品、能与人互动、能建立信任。罗永浩数字人直播的案例,恰恰为这三点提供了行业标尺。它不再是简单的产品复读机,而是能用“罗氏幽默”与观众调侃,能根据实时提问调整讲解策略,最终实现了与真人主播几乎无异的带货效果。

从商业角度审视,这背后反映的是两笔关键账目的变化:

第一笔是成本账。数据显示,数字人直播能平均降低约80%的成本。这意味着商家可以将过去投入在昂贵主播身上的预算,转移到供应链优化和市场推广上,彻底重构成本结构。千元级别的投入,就能获得一个7x24小时在线的主播,这在过去是不可想象的。

第二笔是效率账。在保健品、教育、旅游等需要深度讲解的品类上,知识储备无限、表达精准无误的数字人,其转化效率已开始超越真人。对于拥有好产品但缺乏优秀主播的商家,或是不希望核心名师被直播消耗的教育机构而言,数字人代表着一条全新的增长路径。

“好用”的数字人并非凭空而来,它的出现反映了不同公司在技术路径上的战略分化。当我们从市场应用效果反推其背后的技术逻辑时,百度的选择便清晰地浮现出来。

当前行业的主流叙事集中在卷模型,各家比拼参数规模和基准测试成绩。而百度的路径更偏向卷应用,这一选择的底气源于其在多模态技术上的长期积累。

这种“应用为王”的战略,最终指向的是生产力的规模化落地。复刻罗永浩更多是技术天花板的展示,其真正的商业价值在于将这种能力以低门槛、可复制的方式赋能给广大中小商家。百度电商总经理平晓黎在接受采访时表示,相比追逐头部IP,更倾向于“让更多的中小商家、腰部商家,还有创作达人能够做起来”。

更关键的是,这条路径验证了AI产业期待已久的商业闭环。从行业发展的角度看,罗永浩数字人直播的意义远超一场带货本身。它为AI产业提供了一个清晰的价值验证:技术的最终价值必须通过为实体经济创造可度量的商业成功来检验。这种“超级有用”的路径,或许比追逐“超级应用”的概念更具现实意义。当然,这种模式能否被广泛复制,以及在更多垂直领域的适用性,仍需要市场的进一步检验。

点个爱心,再走 吧

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10