
第一个用大语言模型能力,来“系统化改造推荐系统”的团队。
作者丨郭海惟
编辑丨陈彩娴
在 GPT3.5 横空出世以前,“推荐”可能是互联网历史上最深刻的技术。
如果没有推荐,人便失去了与浩如烟海的互联网信息沟通的渠道。而正是推荐技术编制了一张庞大的网,将人、内容、商品和货币串联在一起,才有了你所能见到的鲜活线上世界与咋舌的经济奇迹。
如姜宇宁对 AI 科技评论所说,“过去的十年是推荐系统主导流量的十年。”
作为淘宝推荐算法一号位、阿里巴巴中国电商事业群的杰出算法专家,姜宇宁带领他的团队掌舵着这个全球领先电商平台的推荐算法系统,每年有数千亿元的交易额由他的算法团队撮合,他们的每一个动作背后都关系了上百万的商家与数百亿的成交单数。
7月初,淘宝推荐算法技术团队上线了一个名为 RecGPT 的百亿参数推荐大模型,对“猜你喜欢”功能实现了生成式推荐( AIGR )技术升级。用姜宇宁的话说,他们是第一个用大语言模型能力,来“系统化改造推荐算法”的团队。
某种程度上来说,RecGPT 大概是一个发布后便被外界低估的模型。相比于各家厂商都在刷榜 benchmark 的基座通用大模型,RecGPT 专注于对推荐这个具体任务的改造,这使得它一开始并没有获得足够高的媒体关注。但它却称得上是这个横亘二十多年电商推荐系统的时代转折点。按照姜宇宁的说法,以此为起点出发,它将逐步生长成一个更加成熟的,以 AI 大模型为中枢指挥大脑的全新电商推荐系统。
8月,借着姜宇宁团队上线 RecGPT 技术报告的契机,AI 科技评论对其进行了独家专访,我们力图探究为什么淘宝能率先实现了 AIGR 在推荐系统的全量上线?淘宝对推荐系统与大语言模型结合的思路和打法是什么?它的诞生会对淘宝生态产生怎样的影响?以及,为什么 AIGR 的系统级大规模落地,竟然发生在 ChatGPT-3.5 上线的整整35个月后?
你可以简单将其中一些答案归因于,淘宝本身对 AI 的重视——这是所有人都知道的事情。阿里巴巴是对大模型技术投入最激进的玩家之一。而早在2024年,阿里巴巴中国电商事业群首席科学家、技术总裁郑波就提出了 AIGX 技术体系,就像一张覆盖电商商业经营所需全部场景的生成式 AI 技术路线图。
但与其他所有的 AI 玩家不同,淘宝本身又是一个特殊的生态,它的一举一动都牵动着庞大的交易规模,它沉淀着可能是中国最全面最丰富与历史最悠久的电商数据。尤其随着“外卖大战”如火如荼,闪购带来的日活用户激增也给这套算法体系提出了更多的挑战。
姜宇宁对 AI 科技评论表示,AI 大模型实际上赋予了传统推荐系统一些全新的能力。
首先,他说,传统推荐系统是一个黑盒,有时候它的推荐结果不仅用户不能控制,连搭建推荐系统的算法工程师也不能百分百解释。而大语言模型具备很好的语言遵从能力,可以起到让传统推荐系统“白盒”化的作用。在大语言模型的加持下,推荐系统可以更好遵从用户指令,执行平台的策略意志。
其次,与传统系统更关注用户的短期行为不同,大语言模型具备较长上下文窗口的理解能力,因此可以将海量的长历史周期的用户资料投喂进去,从而让系统可以在更长的时间维度中理解用户行为。而语言模型的推理能力又使其能预测用户需求的演进,从而让系统跳出只依靠用户短期行为而出现“信息茧房”现象。
在 RecGPT 中,大模型更像是在传统的预估模型之外增加了一个模块化的能力。它不替代预估模型,而只是预估模型外前置了一个更高效的筛选与排序装置,从而让系统的身段变得更加灵活。而姜宇宁认为,这样的灵活会进一步推动淘宝推荐生态的变化——新用户、长尾商品、创意属性的高情绪价值的商品会因此收益,比如“曝光量增长最多的品类其实是潮流款服饰和新奇玩具”。
姜宇宁认为,推荐系统的 AI 进程其实与平台的属性、目标不无关系。
淘宝的优势在于丰富的商品供应与用户数据资源,而淘宝的战略是“万能的淘宝”,这意味着用户需要在手淘里有更沉浸式的消费体验、让海量商品与高个性化的用户产生高质量的链接,而这一切都恰好是大语言模型擅长的事情。“技术架构设计必然是服务于业务战略的”,姜宇宁对 AI 科技评论表示,相反,假如“狂推头部爆品”或者“逮着低价商品推”,其实都不太需要一个大模型来辅助推荐模型。
姜宇宁透露,目前 RecGPT 的版本是在各个环节辅助推荐系统,而下一步是要在所有环节上建设一个“大模型指挥官”,协调和指挥推荐的所有环节,从而让推荐系统有更好的一致性。至于行业讨论很火的“端到端”方案,姜宇宁认为它有可能是未来的最优解,但目前仍需要保持谨慎探索的态度。他对 AI 科技评论表示,现在各家所说的“端到端”方案只是借鉴了大模型的 scaling-up 思路,而却浪费了大语言模型丰富的世界知识和强大的推理能力,其实是“买椟还珠”了。
而一切到最后都要回到 ROI 上。每当姜宇宁提到“端到端”,他总会配上 ROI 这个词,整个人保持一种不否认但也不兴奋的观望状态。
正如他在结尾所说的,十几年 AI 算法从业经验教会他的事情是,“ AI 一定要创造商业价值,一定要落到业务场景里并且形成正向的商业循环, AI 才能在里面落地生根发芽。”
这大概就是淘宝的 AI 团队与其他团队最大的不同。
以下是本次专访的内容,AI 科技评论作了不改原意的整理与编辑:
01
推荐系统是个“黑盒”,大模型能让它“白盒化”
AI 科技评论:听说你们是第一个将大模型能力落地到推荐系统中的团队。
姜宇宁:其实最近两年国内外都有不少做大模型和推荐算法结合的研究工作。不过推荐是一个系统级能力,分成很多环节和模块,我们将每一个环节模块都做了改造,所以我们算是第一个(用大模型)系统化改造推荐系统并全量到生产环境的。
AI 科技评论:不同的玩家似乎在推荐这件事情上采用了不同的逻辑,比如快手和亚马逊,都提出了一些端到端的概念,但你们是分段的方式。
姜宇宁:对,这是两个完全不同的思路。
端到端本质并没有在用大模型的能力,它是在模仿大模型在 NLP 里面的成功经验,在借助 scaling law 的方法论。
我们其实也在做类似端到端的尝试。但它的 ROI 不一定会很高,可能需要大量资源才能上涨一点的收益。所以在当前阶段,分段和现有推荐系统结合是大模型可以比较快拿到回报的事情。
AI 科技评论:能不能理解说,我们目前分段是阶段性的,早晚也是要去做端到端的?
姜宇宁:(端到端)肯定会做的。但现在大模型的能力很强,如果你不用它的能力,而只用它的建模方法,其实有点买椟还珠的感觉。
其次,过去推荐模式是黑盒的形式。为什么给你推这个东西,你完全不了解,可控性也非常差。不可解释。就像大家现在刷抖音,需要养号,要点很多东西以后才会推想看的东西。但是大模型可以推进系统的“白盒化”——因为推荐系统有了语言遵从能力,所以可以让系统朝着平台或用户自己想要的方向去做推荐。
AI 科技评论:很有意思,大家之前聊大模型都说模型是黑盒,但现在反而能让推荐系统变成白盒?
姜宇宁:大模型本身当然是黑盒的。但是如果拿过来用,已经比原来的算法有了更多可解释性。过去 NLP 或者 CV 问题,结果为何,不可解释。但现在大模型有 thinking 的过程。
虽然大模型为什么这么想,终究是不可解释的。但如果你把它当做插件,接到原来的算法里,原来的算法就有了一定的可解释性。
AI 科技评论:推荐系统为什么是一个黑盒?可以解释一下吗?
姜宇宁:推荐系统的本质是,你一边有一个用户,另一边有几十亿个商品,你要从中去找到最匹配二三十个商品。
匹配分是由一个类似双塔结构的模型送上去,一边是用户特征一边是商品特征,吭哧吭哧算完后出来一个数字,比方说,“0.9”。但“0.9”代表了什么?它不具备可解释性——它又多大程度上跟你的什么兴趣、什么特点匹配,其实是不知道的。
就像你在短视频里刷到一个博主,平台有那么多的博主,但为什么就是 A,而不是 B?系统说我就是认为你更喜欢 A,至于为什么,系统其实回答不了这个问题。
AI 科技评论:传统推荐模型没有办法还原它的权重是如何分配的吗?能不能尝试去拆解这个权重吗,看它有哪些大类的影响?
姜宇宁:这就是要涉及到一个推荐系统的基本原理——“协同过滤”。
你可以这么理解:推荐模型的权重并不仅仅是通过你一个人的行为,而是通过几亿用户的行为学习出来的。哪些跟你有类似行为的用户,他们又点击了哪些商品,我们构建了数十亿这样的行为对,模型的权重是在这个数据基础上学习到的统计值。因此,它没有办法被简单还原到某个个体行为上:你有什么特征,所以出了推什么结果。
当然我们可以去尝试解释,但这更像一个事后的找补——分已经打出来了,再做一个事后诸葛亮。
AI 科技评论:那既然都是匹配,为什么传统推荐模型难以解释,但是大模型就可以?
姜宇宁:首先传统的打分模型并没有被替换掉,大模型相当于在帮它找候选集。大模型的好处是,我可以在匹配的时候,直接要求系统给出大致匹配的理由。然后再让系统遵从你的语言指令,通过对用户不同维度的拆解,来匹配商品。
比如,给定一个用户画像,和一个有语义遵从能力的推荐大模型,你可以对它说,“请从用户3天内的购买行为来推荐商品”,也可以“请从用户居住地的天气来推荐商品”。这样候选的商品其实就遵从了不同的维度。
其次,大模型的思考能力让它有了延伸推理的可能。比如,系统发现我买了奥特曼的东西,进而推断我家可能是有个喜欢日本动漫的小孩,从而推出我可能需要有儿童书籍的需求。它相当于可以跳出过去历史行为去做进一步延伸分析的,而且它延伸的维度,是按照你的 prompt 提示词去延伸的。
AI 科技评论:所以如果用了大模型,其实系统可以推荐过去推不到的东西?
姜宇宁:对,我认为大语言模型对推荐系统最大的收益就来自两点:推理能力以及语言遵从能力。
刚上面提到的,大模型的推理能力能让推荐系统更具有“可解释的发现性”,让推荐结果既在意料之外,又在情理之中。而语言遵从能力能让大模型具有“可调度性”,我们可以去直接命令大模型,按照什么维度去推,“不要推看过的”、“不要推历史过久的”、“要新鲜的”。这样真的实现了“ human in the loop ”。
AI 科技评论:这是不是意味着运营人才也能加入其中。
姜宇宁:对,他对推荐系统的好处是开了一个口子,使得除了算法工程师外的很多人能参与进来,贡献想法。
大互联网平台有非常实际的业务问题,即推荐系统在大流量平台中承担了非常多的调度功能,不完全是效率导向的。你可以认为推荐系统是一个供电网络,要通过调度流量,根据需求把流量分配到不同的行业和内容——除了满足一定的效率约束外,还要思考如何让他指哪打哪。
过去的方法可能是要算法同学去“调度”系统,或者去做加权或者降权,才能达成这个目的。但现在我可以直接告诉系统,今天有什么热点,着重去推荐这个东西。一句话就能搞定。
AI 科技评论:所以可调度性其实是很重要的。
姜宇宁:我是做算法出身的,算法本身是追求效率最大化的。但在实际上任何算法都不全知全能,它需要策略的干预。比如今天有一天突发热点,什么发布会上同款军大衣突然火了,靠纯算法效率驱动一定会有滞后性。那如何能快速且高效地调度流量分配就很考验推荐系统的整体设计。
我认为在大模型+推荐系统的结合中,一方面要追求效率的提升,一方面也要兼顾可调度性。最近友商发表的一些论文其实没有真正考虑到可调度的推荐场景。但我们要知道,推荐系统背后其实是有平台意志的。
AI 科技评论:路线选择不同,会不会跟平台特性也有关系?因为淘宝其实是运营相对重的公司。
姜宇宁:未必。其实很多平台都有很强的运营属性。这最后就是一个在效率最优和可调度性之间的平衡问题。就像一个小孩,他总能考很高的分数,但是跟人交流的能力不太行,不能按照你的指令做事,有时你也会很头疼。而大模型现在提供了一个能够把两者兼得的可行路径。
02
大模型在推荐系统落地晚,因为 Baseline 太高
AI 科技评论:其实 GPT-3.5 已经出来两年多了,你们技术报告里也提到,用大模型来改造推荐系统的尝试其实相对较少,这是为什么呢?
姜宇宁:看要跟谁比了。你看大模型出来以后,大家的第一反应是改造搜索,而不是推荐。因为大模型天然适合对话,而推荐是没有对话入口的。推荐是你进了这个饭店,小二给你上什么菜你就吃什么菜,你没有点单的权利,但是搜索系统你是可以点单的。所以推荐上的改造慢于搜索,这是大语言模型本身特性决定的。
AI 科技评论:但推荐是一个价值很高的场景。所以按道理,一旦有新技术,大家都应该会跟进探索。你觉得它落地比较晚,背后的技术难度在哪里?
姜宇宁:我觉得最大难度是原来一套系统的 baseline 已经太高了。推荐算法其实是一个系统科学,发展了十多年,现在不管是基于协同过滤,还是基于什么其他的方法,已经推得非常准了。尤其对深度用户的行为,累计了很多数据,系统对你非常了解了你的历史行为序列,虽然它是黑盒算的,但一定能找到非常好的匹配。然后会把你的整体的指标用户指标拉得非常高。
但推荐系统有的时候黏性高,是“有毒”的,它造成了非常强的茧房效应。如果基于历史信息推荐,就会越推越类似。另外一面,我们反过来,假如用户是新进入的,原有的系统其实就很难推准。这其实都是一个问题的一体两面。
AI 科技评论:传统模型和大模型的关系到底是怎么样的?为什么它无法被大模型替代呢?
姜宇宁:其实现在一些端到端的构想,到最后仍然接了一个传统深度学习模型。
假设我们有 A、B 两个商品,推荐系统不是简单地做排序,知道 A 比 B 好就可以了,而是要给他们打一个分数,A 比 B 好多少,20%,50%还是100%。因为推荐系统,尤其是电商领域,要跟成交金额、广告收入、抽佣等等数字相关,所以你需要量化推荐的分数。
AI 确实适合干非常多的事情,比如基于长上下文的推理,但它就是不适合干精确数字计算的活。所以 AI 目前是做初步筛选,剩下精确数值计算的部分交给传统的打分模型来做。
AI 科技评论:这种长上下文的输入,在技术实现上的效率高吗?
姜宇宁:我觉得这是我们这次的核心进步之一。
原来推荐系统更喜欢关注近期行为,尤其是这一两周买了什么、看了什么,就会拼命推,但往往会忘记用户的长期兴趣。而 RecGPT 可以从长期兴趣的角度出发,完成更多的探索。
不仅如此,我们基于用户数据逐步实现了一些推理能力。比如一年前你买了孕妇相关的东西,那么一年后就不能再推孕妇产品,而是要推宝宝产品了。所以标签本身也具备了演化和推理能力。
AI 科技评论:所以过去的标签是没有演化的吗?
姜宇宁:以前的标签如果要演化,必须是你有了某种行为之后才行。比如标签什么时候从孕妇演化成宝妈呢?就是当你开始买婴儿产品的时候。
所以传统推荐系统的学习是后置的:你先有某个行为,模型学习到了,再给你推荐。但大模型的推理能力就能让推荐模型的更新发生在用户行为之前。
AI 科技评论:你刚才说,大模型在搜索领域的发展比推荐更早。但电商的场景里似乎不太一样,好像推荐的落地比搜索更前?
姜宇宁:其实也不是。电商有很多落地没有被大家看见。但有一点是:电商是一个偏消费决策的场景,不是一个做信息收集类的场景。所以大模型在电商搜索上的应用,并不是在于带来多 fancy 的信息交互形式,而更侧重在如何更准确地理解用户意图,如何产生更高质量的数据,如何潜移默化地影响用户做决策。这些背后的改进只是不容易被注意到罢了。
AI 科技评论:其实大家之前确实也做过通过自然语言交互去做电商搜索的尝试。
姜宇宁:就像刚才说的,大家在搜某个具体东西的时候,大部分时间已经做好决策,不需要大语言模型再去写一大段文字告诉他们应该买什么。
大模型在电商搜索正在的应用应该在于:当用户搜索“网球拍”时,你得知道这个用户到底是什么特性?比如,价格敏感型还是服务敏感型?新手初学还是进阶选手?接着你再根据用户特性去推荐服务最好的商家或最便宜的商家,入门装备或高阶装备。这才是真正能提升用户体验的地方。
03
所有的推荐系统都是 EE 问题
AI 科技评论:你曾经讲过70%内容是基于推荐引擎,30%内容是试错,目的是让系统不要进入茧房效应的同时又保证效率。
姜宇宁:对,我们就是要想办法,保证70%的部分效率不跌的情况下,把30%的效率提上去。
其实所有推荐系统都是一个 EE 问题( Exploitation和 Exploration,利用与探索),在两个E中寻求平衡。过去,Exploration 的部分是几乎随机的策略,跟扔骰子一样。但现在有了 RecGPT 的大模型辅助,这部分的效率会显著提升。它也能遵循指令,比如让用户探索一下零食品类、服饰品类等,不再完全是盲目的探索了。
AI 科技评论: Exploration 给 Exploitation提供了更多的数据,如果前者更高效、沉淀数据的效率更高,那么后面也相应会更高效,这样形成一个AI模型与传统模型之间的循环?
姜宇宁:是的。我们可以将系统分成“效率圈”和“探索圈”。“探索圈”涨得快,数据才可以补到“效率圈”,与用户发生关系的商品才会越来越多。
AI 科技评论:那能不能这么理解:效率圈就是靠传统推荐模型,探索圈就是靠大语言模型?
姜宇宁:这么说不准确,其实两个圈或叫两个任务都升级到了大语言模型加传统推荐模型的新模式。只是这个模式对 Exploration 的帮助比对 Exploitation的更大。
AI 科技评论:这两者的效率提升之差能有多少?
姜宇宁:效率圈是个位数的增加,探索圈的提升能有百分之五十以上。
回到推荐系统难点的那个问题。原来大模型想要提升“效率圈”的效果,会发现投入大量资源,但提升效果有限,因为系统已经做得很好了。反而“探索圈”是一个靠传统方法很难做好的部分,大模型应用空间就很大。
AI 科技评论:那是不是可以理解,大模型的应用会对新用户很友好?
姜宇宁:(对)新用户和长尾商品(都友好)。
这套系统缓解了商品的马太效应。假如我们效率圈的曝光是70%,这70%的曝光其实只给了10%的商品,而剩下30%探索圈的曝光,分配给了90%的商品。这其实非常不均匀。
而一个商品要从探索圈进入效率圈的前提,必须是要让商品和人之间产生点击,然后才能打准分数。但因为长尾商品的打分是很难准确的,所以探索圈的点击效率就是很低的。假如300个探索曝光只收获了6个点击,那么其实只有 6 个有效的数据可以被效率圈学习到;但大模型上来后,我可能有 10 个点击,那就会有更多的商品被激活,能够进入到效率圈。
AI 科技评论:所以淘宝过去数据很多,但很多其实是没有被激活的。
姜宇宁:淘宝也叫“万能的淘宝”,在所有电商平台里,淘宝的商品丰富度是最多的。我们平常看到的淘宝,只是淘宝商品库中的一小部分,它有大量好玩的商品其实没有被推出来。所以才需要我们利用大模型去改善这一点。
AI 科技评论:其实很多用户都吐槽,为什么大数据会给我推很多我购买过的内容。为什么这件事情就是规避不了呢?比如做一个简单的规则。
姜宇宁:因为任何规则都或多或少有漏洞。
比如我买了一包开心果,觉得很不错,我确实想复购,但是系统再也不推了。或者这个规则的时间范围该怎么设定?3天之内不出,还是3个月、9个月不出?这个周期该怎么定?那如果今天我复购的是一袋洗衣粉,这个周期还适用吗?
所以我现在更希望把事情放到前链路去做,尽量让大模型去学习和判断,这个商品到底有没有复购属性,周期该怎么设置,而不是简简单单拍个规则。
AI 科技评论:你刚才说,RecGPT 对新用户很友好。那像闪购、外卖这样的业务进来以后,平台的日活涨了很多,都是新用户,对于推荐系统来说是不是有压力的?RecGPT 刚好能发挥作用?
姜宇宁:我们当然希望能看到这样的增长。新用户进来,能不能转化地好,其实很大程度上也是我们推得好不好。这其实对我们来说是很大的挑战和机会。因为他们之前的购物都是非传统电商的行为,比如外卖、奶茶,以及一些身份和地点信息。
AI 科技评论:什么样的商品推荐是比较适合留下闪购用户的?
姜宇宁:零食是很天然的转化品类。用户吃过什么外卖,喜欢什么口味的,如果爱吃辣的,首页就可以推辣条。我最近发现,我们经常给一些四川的同学推重庆米线,效果还不错。
04
如果只推低价,是不需要大语言模型的
AI 科技评论:我们在做评判的时候,好像既采用了人工评判,也做了一个小的模型。你们是出于什么考虑这样做的?
姜宇宁:假如用一个大模型去做对话机器人,其中最难的事情之一,可能就是把好的对话的标准定义出来。电商也是一样,大模型总结出了一个用户画像,这个画像好还是不好、是否全面,我们其实做了大量的人工的检验——我们不是标注,只是检验。
比如,我的标签是一个极客,那大模型给我推一个纯钛水杯是否合理?商品库里是否真的存在一个纯钛水杯?如果不存在,那说明出现了幻觉。但人工的标注成本是很高的,所以我们会把结果记录下来,再用另外一个模型去学习人工标注。
AI 科技评论:你觉得推荐是有数据飞轮的吗?如果一个平台数据更多、供应更多、行为的维度更多,是不是这样的平台在未来的AI时代就是更有机会的?
姜宇宁:当然,毫无疑问。做 AI 一定要充足的现金流、好的商业循环和好的数据循环,缺一不可。
AI 科技评论:我们有涉及到多模态的内容么?未来大模型会学习人类审美来做推荐么?
姜宇宁:审美这件事情还是由用户来决定的,平台只是来做匹配。
但我们接下来会做一个新的基于多模态的 ID 体系。这样商品的 ID 数量会大幅减少,不再依赖原来一个商品一个链接对应一个 ID 。这样一个商品哪怕更换商品链接,它的语义 ID 是不会变的。
AI科技评论:这听起来是一个改变非常大的事情。
姜宇宁:会改变很多商家的运营习惯吧,原来很多商家喜欢养链接,把不同的商品挂在一个链接上来继承流量,这造成了一些“货不对板”的情况,但以后这样做就没有收益了。
AI 科技评论:你觉得不同的平台生态,对推荐策略和技术的需求有什么不同?
姜宇宁:当然有。比如你如果做的是极致低价策略,那么就是要制造同品的价格内卷,每个 ID 里只出价格最低的那个商品。所以整个推荐架构必然是服务于这个业务战略。我们的 RecGPT 本质上是服务“万能的淘宝”的。我们既不是狂推头部热销品,也不是逮着低价商品来推,所以才需要 RecGPT 这样的算法设计。
其实商品丰富性对于淘宝的 AI 发展来说是一个很大的优势,我们的推荐系统能比别人回答更多的问题。说实话,如果你只是同品类推一个低价,其实不需要 AI 去推的。
AI 科技评论:如果我们接下来进入 AI 大模型推荐的时代,你对商家有什么建议?
姜宇宁:多研究平台的政策和规则,多做创意。你知道系统上线后,哪个品类增长最快吗?玩具。有更高情绪价值的新、奇、特商品,一定会得到更好的流量回报。
05
推荐系统离“惊吓”还很远
AI 科技评论:你们有没有考虑过,如果用户觉得系统太懂自己了,可能会觉得被冒犯?
姜宇宁:以目前的技术水平来说,这样的情况并不多见。
我前两天遇到一个巧合,我正在一边吃同事买的某款肉松,一边边刷淘宝,突然发现竟然给我推荐了一个完全同款,把我吓了一跳。后来我专门研究了这个 case ,其实就是简单的巧合——因为这个肉松的商家在大力推广告,所以同事被种草了,而我刷到的其实也就是商家的广告而已。
未来如果真的出现类似“精准”的情况,确实不知道是惊喜多一点,还是惊吓多一点。不过总的来说,目前推荐系统离让人有“监视感”的程度还非常远,现在大家吐槽最多的还是“信息茧房”。
AI 科技评论:但假设我买了一个纸尿裤,平台立刻知道我要生小孩了,我可能就会有被冒犯的感觉。
姜宇宁:像我们最近在“猜你喜欢”主页的商品下面加入“推荐理由”,内部是有明确的审核与风控的,涉及到用户的年龄、身高、外表都不会有任何评价。
其实隐私不止是用户的事情,对于平台也是有很大的风险的。比如,在敏感的时间节点给有文化敏感的人群,误推了一些敏感的商品等等。我们过去只能硬写规则,但系统本身是无法理解的。有了大模型以后,类似的风险会更容易被规避掉。
06
未来要让大模型做“推荐指挥官”
AI 科技评论:在你看来,未来推荐系统技术演变的方向是什么?
姜宇宁:三条路。
第一条路我叫它“插件式”,也就是 RecGPT 现在的方式,用大模型去对现在推荐系统的每一个环节做改造增强。利用它的推理、长周期的记忆能力,来丰富系统能力。
第二条路是让大模型做推荐系统的“指挥官”,构建一个大脑去做每一个环节的控制。因为现在推荐系统还是有非常多环节的,如果每一个环节各自优化、各自迭代,会导致推荐系统出现不一致性。如果有一个指挥官,我可以在不同的时间阶段去做不同的策略部署。比如双十一,那就成交效率最大化,那推荐各个环节就都以成交为目标;或者日常的一些时间,可以是种草目标为主,那各个环节都调整对齐到种草目标。由这个大模型大脑通过超参来调度推荐全系统,提升一致性。
第三条路就是我们说的“端到端”,即减少中间环节同时对打分模型做 scaling law 。如果我们相信,规模就能产生奇迹,那么既然在 NLP、CV 问题上能成功,推荐系统也有可能会成功。
AI 科技评论:你觉得它是不同的演化阶段吗?从1到2,再到3。
姜宇宁:从实现难度上来看,是这样的。
AI 科技评论:其实大家对第三条路还是很痴迷的。
姜宇宁:十年前,推荐系统只是一个简单的回归模型。深度学习先在 CV 和 NLP 问题证明了自己,才被用到推荐系统里,变成了 DIN 等现在主流的深度推荐模型。
为什么大家信 one model(端到端)?因为这好像跟十年前非常相似,又是一个新的模型结构,比原来的更大(深度学习也要比逻辑回归大很多),同样在 CV 和 NLP 问题里也证明了成功,所以很容易让大家产生一些思维认知的惯性。
我从来不否认这个方向的可能性,但推荐的任务性质和自然语言有很大不同。在这个任务上,推荐模型要 scaling-up 到多少才能让它具有质变的能力,而达到这个质变的奇点又要付出的成本?我们需要算 ROI 。
AI 科技评论:这和目前大模型的智能上限有关系吗?
姜宇宁:推荐系统里做 scaling law 跟这个没关系,因为它没有真的用大模型的智能,只是把打分模型做大了几十倍、甚至几百倍的参数。它没有世界的知识,只是一个更强的考官而已。
AI 科技评论:你觉得淘宝现在什么阶段?
姜宇宁:1和2之间吧。接下来要往2的方向去走,我也相信这条大模型做指挥官的方式会很快实现。同时也会有人探索3端到端的事情。
AI 科技评论:你曾经是旷视工号第五的员工,经历了从 CV AI 到大语言模型的十余年历程。你觉得过去的经历,对你现在来说最宝贵的经验是什么?
姜宇宁:AI 一定要创造商业价值。一定要通过正向的商业循环,能够找到一个业务场景,AI 才能在里面落地生根发芽。
