独家|对话淘天凯夫:淘宝AI升级,2025年做了三件事

虎嗅APP
Oct 18

出品|虎嗅商业消费组

作者|苗正卿

题图|视觉中国

如何让一艘正在航行的巨型轮船,在保持前行的同时“换上”新引擎?

这是摆在23岁淘宝面前的“历史级考题”:拥有10亿年度活跃用户、300余万商家、6.5万亿年GMV的淘宝,需要完成一场AI升级。而考题的难点在于,它要一边确保业绩稳中有增,一边确保用户和商家感觉不到“升级阵痛”。

虎嗅独家获悉,2024年12月,淘天决策层针对AI升级进行了多次会议,经过讨论后,内部逐渐梳理出三件“最具确定性”的需要通过AI升级的事情:1.大幅度提高流量匹配效率(搜推广) 2.为商家增效降本 3.新的AI导购产品。而在2025年3月,三件事陆续启动。

整个过程,采用了AB测试、灰度上线等阿里传统打法。虎嗅了解到,上述三个事情,几乎并行。由阿里巴巴中国电商事业群搜推智能事业部和CTO技术线共同牵头,多个兄弟部门协同推动。

从虎嗅视角观察,这个过程是非常谨慎的。有知情人士告诉虎嗅,所有AI相关新功能、工具,都会从2%用户量这个阶段开始测试。常见的模式是,采用了新AI产品的2%用户会被纳入到一段为期数周的观察期。在这两周之内,技术团队、数据团队等部门会连夜复盘,并研究消费者体验变化背后的原因。

如果一个AI功能或产品,在2%用户量的维度获得了不错的反馈,那么接下来会进入5%、10%直到50%的漫长测试周期,直到50%这个量级测试依然展现出良好的结果,这个产品/工具才能全量上线。

伴随这个过程的,是几个“过去十几年少有的大项目”的诞生。其中的代表项目是“商品库”。在过去23年,淘宝积淀了庞大的商品信息库,但传统的商品信息和淘宝迫切希望引入的生成式AI大模型之间存在“代沟”——过于潦草、错误的商品信息,无法让大模型理解、学习,也无法让大模型发挥出真正的实力。

但彻底改造数以几十亿级的商品信息库无疑是个大工程。虎嗅了解到,淘天把AI作为生产力引入到这个超级工程之中。团队开发了单独的AI Agent去自动学习、撰写商品信息,然后AI Agent还会完成复查环节,基于AI助力,这个在人工时代“多年未解决”的难题,在数个月时间里得到了显著效果。而基于这个新商品库,淘天重新引入了基于大模型的“搜推广”体系,改变了旧有的流量分配生态。

虎嗅获悉,自3月开始,淘天陆续完成了商品库、六个AI创新产品(AI万能搜、AI Summary、拍立淘、AI帮我挑、AI试衣、AI清单)、搜推广体系长尾词复杂词AI升级、商家AI工具升级等一系列工作。从数据看,这些动作带来了流量匹配效率双位数增长。据悉,淘宝复杂语义下搜索相关性提升了20个百分点,推荐信息流点击量提升10%,商家广告ROI提升12%。

10月16日,虎嗅在天猫双11发布会上获悉,2025天猫双11将在10月20日晚上8点开卖,今年将是首个AI全面落地的天猫双11。在用户侧,六款AI创新产品已经在双11前上线或开启内测;在搜推广体系,淘天在双11前已经完成了包括复杂词在内的几个重点AI升级项目。而有品牌商家告诉虎嗅,在今年双11前,商家后台已经出现了超过至少10款新的AI工具。

AI显然已经成为本届双11,和当下淘宝天猫进化的关键词。

在16日早些时候,虎嗅与阿里巴巴中国电商事业群搜推智能总裁凯夫进行了独家交流,这是今年6月份虎嗅与凯夫交流阿里国际AI升级后的再次深入沟通。凯夫分享了他对于淘天AI升级的思考,以及他们在整个过程中的一些基本的、关键的逻辑,下附交流实录,有删减:

虎嗅:2024年双11后,您回归淘天带队推动AI升级,你们团队思考AI进化的整个脉络是怎样的?重点做了哪些事?

凯夫:我觉得本质上关键的是围绕三件事。第一个是“搜推广”的AI升级,也就是在搜索、推荐、广告三个方面大幅度提高流量匹配效率;第二个是为商家增效降本,这里面包括了很多toB的AI工具,比如美工、客服这些环节;第三个是AI创新产品,主要是一些新的AI导购产品,比如我们的AI万能搜、AI助手。

虎嗅:这三件事有优先级吗?你们内部启动的时间点是有前后顺序的,还是几乎同步?

凯夫:是同时去做的。同时开始讨论,同时立项。我们大部分的讨论,是在2024年12月就开始了,然后在年初基本上都定下了基本的思路。这三件事,我们整体上是从3月份着手去做的。

虎嗅:为什么选择这三件事去做?

凯夫:搜推广的AI化是我们非常有确定性的一件事。因为搜推广是所有电商平台的核心,一个电商平台最重要的其实就是它的商品体系加上搜索、推荐、广告,这构成了电商平台的核心引擎。搜推广体系的效率和能力,直接决定了消费者能不能找到想要的商品、决定了商家有没有流量。

其实早在生成式AI诞生前,“搜推广”就已经是机器学习最重要的应用场景之一。当生成式AI出现后,针对“搜推广”的AI化,其实有两种思潮。

第一种思潮认为,搜推广和生成式大模型是两条路,也就是说不要把二者融合,而是单独去基于大模型做一些新的东西。第二种思潮,则是想把商品当成token,用生成式大模型next token prediction的范式彻底改造搜推广。

这两种思考,其实本质上都有各自的问题。第一个的问题在于,它把这两件事看得太割裂了;第二个的问题在于,过于理想主义,步子迈太大了。

所以2025年初,我们做的第一个决定是,认为搜推广是大模型最好的应用场景,我们决定把跟大模型相关的算力、资源投入到搜推广这件事上。

此后我们做了第二个决定,就是到底怎么投入。我们思考后认为,不能像“科幻小说”那样迅速完成彻底的、未来的改变,而是要基于现有体系做融合,也就是把大模型的能力加进来。

我举个例子,搜推广有很多环节,从当下最优解去看,并不是说所有环节都大模型化就最佳。比如索引环节我可以用大模型、相关性判断环节我可以用大模型,但在个性化预估环节我其实用以前的稀疏模型也是可以的。简单来说,一些必须依靠大模型去升级的环节,我们去做升级,但并非全面推翻以往的链路。这是一种务实的方法。

这里面还有很多精细化的做法。比如我们会把大模型的能力蒸馏到相对小一点的模型上,简单说就是用大模型当老师来教小模型。

我来总结一下,在第一件事“搜推广”AI升级上,我觉得有两个关键点,第一是要把大模型用到搜推广之中去;第二是,不要做理想主义、不要追求一步到位的系统性替代,而是做融合,让传统架构和新架构各自解决擅长的问题。

第二件事是商家侧的AI进化。这包括了各种AI工具,这其实涉及了过去20多年阿里的一系列积淀。比如我们的店小蜜,我们很早就有这个产品了,只是之前用的是规则式NLP技术,今天我们把大模型用进来了。这部分其实比较好理解,我就不展开了。

第三件事就是我们的AI创新产品。我们在今年七月、八月、九月一直在测试、上线各种AI产品,我们最早的初衷肯定是希望这些AI产品能带来一些以往完全没有的体验。

我觉得这些产品背后,我们有两个共性的关键逻辑,其一是我们希望每个产品去解决一个用户痛点。我们没有去追求一个特别理想主义或者原教旨主义的东西,而是想解决问题。比如我们AI万能搜想解决复杂场景下商品推荐问题或者说需求发现问题。比如AI助手,我们解决的是挑选难度的问题。

第二个关键逻辑是,我们在做一个取舍:到底是把AI产品、工具融入到主产品的使用场景之中去,还是说以“一个超级入口”形式去通过对话解决所有问题。

我们选择融入使用场景。当然这个不绝对,但我们大部分AI创新产品,是融入或嵌入到使用场景里的,而不是通过一个独立入口去做。这背后的决策因素和淘宝用户天生的动线、习惯有关。我们需要把AI的能力,沉浸式埋入到场景里。

虎嗅:你讲的这三件事,感觉更像是水面上的冰山,水面下似乎还有很多你们做的事情。比如你们今年花了很大精力做升级商品库?(虎嗅注:从2025年初开始,淘天把过去二十余年积淀的商品信息库,做了AI升级,补充了大量更符合大模型学习、理解的商品信息,也做了二十余年来最大规模的一次彻底梳理

凯夫:你说得很对。我以搜推广为例,商品库其实就是搜推广这件事水面下的部分。因为商品库是我们做搜推广AI升级的先决条件。

搜索最简单的工作原理,就是以搜索词为出发点,用户问一个词,然后引擎把这个词和商品做匹配。这里面关键点在于商品信息。如果你的商品信息是丰富的、准确的,那么模型、算法是容易理解的,但如果商品信息缺失或者错误,模型和算法是无法理解的。

简单来说,需要想办法让商家尽量多地写商品信息。写得越清楚、越明白,我们就越容易用大模型把用户需求和商品精准匹配起来。那么怎么去丰富这些信息呢?我们叫底层数据格式的标准化。以往我们需要用大量人工,去一点点查资料、询问用户或者商家,然后补充信息。我们今年通过AI去自动丰富、补全信息,最终重新梳理了整个商品库的底层索引。

这是淘天的一个超级大项目,牵扯到技术、业务很多团队。而且这是一个缺少了AI没法做的事情。我给你举个例子,在2010年、2011年,淘宝小二每天在做丰富商品信息这件事时,会去买百科全书,比如服饰小二,可能就会买一本纺织工业百科全书,然后去查询品类商品所包含的关键属性。

我们今年用了一个AI Agent。如果没有这个AI Agent,我们想重新梳理整个商品库信息,我跟你讲我们都雇不起那么多的小二人工,那是一个巨大的工程。但AI Agent可以24小时工作,小二只需要去调教AI Agent就可以了。

虎嗅:我想追问一下,就比如你刚刚讲的这个用AI Agent去丰富商品库的细节,这是一个今年做时机恰好的事情,还是说其实去年做更好?

凯夫:这可能是一个天时地利人和的事情。2024年我们团队有一些积累,但2025年技术更成熟、技术成本更低。或者说,这件事在2025年的成熟度更高了。需求场景存在、技术成本下降、团队组织的共识更强,所以今年做这个事情挺合适。

虎嗅:我回到主线,听你刚才讲的三件事以及水面下的事情。感觉比较像是高速路上行驶的汽车要同时换引擎?

凯夫:我觉得换个比喻更合适,我们可能更像是一艘船,然后船一直在前行,我在旧引擎旁边安装了一个新引擎。等于我没有卸下之前的引擎,我装了俩。

我们在做所有产品技术升级时,我们传统的业务都在跑。我们一路是靠不断的AB测试,一点点去推动进化的,测试后数据说话。

虎嗅:你刚才提到的商品库,感觉它其实是未来若干年淘天生存发展的一个新基础设施?

凯夫:你可以这么理解。

虎嗅:那今年你们做的这些事情或者项目,还有什么可以属于这个范畴?

凯夫:我觉得整个搜推广都属于这个范畴,这是非常底层的大基建。

虎嗅:这些事情,都是过去八个月左右完成的?

凯夫:我们之前有过一些讨论,然后开始做是三月份。搜推广整体的进化,其实是一个连续的过程,之前几年我们也在不断更新。但今年三月份开始,我们在搜推广上开始有比较大规模的投入,包括针对大模型的算力、资源的投入。

但我觉得,很多事情,确实是淘天这些年动作的延续。比如生意参谋、店小蜜我们都做了很多年了。今年跟以往业务节奏上的差异,我觉得是大项目多一些,比如商品库就是大项目。

虎嗅:大项目你们是怎么定义的?

凯夫:就是时间长、投入的资源人力多,一般都是一些相对底层的东西。我们今年团队的勇气确实是值得嘉奖的,因为我们挑战了一些以往很多年没动的事情。商品库其实我们过去十几年并没有大的质变。

虎嗅:听你刚才分享的内容,这种大项目少不了AI这个生产力。之前和你聊,你并没有通过OKR这些手段去强推团队用AI工具,今天你依然保持这个思路吗?

凯夫:我更希望大家是需求驱动。以商品库这件事为例子,其实根本不需要定一个AI工具相关OKR,因为没有AI这件事是做不出来的。

虎嗅:从外界视角看,你们做的这些事情,其实是“动筋动骨”的,但同时你们要确保用户体感在线。这种平衡是怎么保持的?

凯夫:我们是逐步“切流”,通过新老并存的方式去一点点测试,我们叫灰度上线。其实这些事情,也是靠一个个补丁打起来的。

如对本稿件有异议或投诉,请联系tougao@huxiu.com

End

🌀 当速食知识充斥大脑,你选择深耕还是浮于表面?

🛡️ 当认知壁垒不断加厚,你是否选择跨出舒适边境?

🗺️ 来虎嗅2025F&M创新节,我们一起看点真实的。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10