對話淘寶姜宇寧:如果你只推低價商品,是不需要用大語言模型的

AI科技評論
09/25

第一個用大語言模型能力,來「系統化改造推薦系統」的團隊。

作者丨郭海惟

編輯丨陳彩嫺

在 GPT3.5 橫空出世以前,推薦可能是互聯網歷史上最深刻的技術。

如果沒有推薦,人便失去了與浩如煙海的互聯網信息溝通的渠道。而正是推薦技術編制了一張龐大的網,將人、內容、商品和貨幣串聯在一起,纔有了你所能見到的鮮活線上世界與咋舌的經濟奇蹟。

如姜宇寧對 AI 科技評論所說,過去的十年是推薦系統主導流量的十年。

作為淘寶推薦算法一號位、阿里巴巴中國電商事業羣的傑出算法專家,姜宇寧帶領他的團隊掌舵着這個全球領先電商平臺的推薦算法系統,每年有數千億元的交易額由他的算法團隊撮合,他們的每一個動作背後都關係了上萬的商家與數百億的成交單數。

7月初,淘推薦算法技術團隊上線了一個名為 RecGPT 的百億參數推薦大模型,對猜你喜歡功能實現了生成式推薦( AIGR )技術升級。用姜宇寧的話說,他們是第一個用大語言模型能力,來系統化改造推薦算法的團隊。

某種程度上來說,RecGPT 大概是一個發佈後便被外界低估的模型。相比於各家廠商都在刷榜 benchmark 的基座通用大模型,RecGPT 專注於對推薦這個具體任務的改造,這使得它一開始並沒有獲得足夠高的媒體關注但它卻稱得上是這個橫亙二十多年電商推薦系統的時代轉折點。按照姜宇寧的說法,以此為起點出發,它將逐步生長成一個更加成熟的,以 AI 大模型為中樞指揮大腦的全新電商推薦系統。

8月,藉着姜宇寧團隊上線 RecGPT 技術報告的契機,AI 科技評論對其進行了獨家專訪,我們力圖探究為什麼淘寶能率先實現了 AIGR 在推薦系統的全量上線?淘寶對推薦系統與大語言模型結合的思路和打法是什麼?它的誕生會對淘寶生態產生怎樣的影響?以及,為什麼 AIGR 的系統級大規模落地,竟然發生在 ChatGPT-3.5 上線的整整35個月後?

你可以簡單將其中一些答案歸因於,淘寶本身對 AI 的重視——這是所有人都知道的事情。阿里巴巴是對大模型技術投入最激進的玩家之一。而早在2024阿里巴巴中國電商事業羣首席科學家、技術總裁鄭波就提出了 AIGX 技術體系就像覆蓋電商商業經營所需全部場景的生成式 AI 技術路線圖

但與其他所有的 AI 玩家不同,淘寶本身又是一個特殊的生態,它的一舉一動都牽動着龐大的交易規模,它沉澱着可能是中國最全面最豐富與歷史最悠久的電商數據。尤其隨着外賣大戰如火如荼,閃購帶來的日活用戶激增也給這套算法體系提出了更多的挑戰。

姜宇寧對 AI 科技評論表示,AI 大模型實際上賦予了傳統推薦系統一些全新的能力。

首先,他說,傳統推薦系統是一個黑盒,有時候它的推薦結果不僅用戶不能控制,連搭建推薦系統的算法工程師也不能百分百解釋。而大語言模型具備很好的語言遵從能力,可以起到讓傳統推薦系統白盒化的作用。在大語言模型的加持下,推薦系統可以更好遵從用戶指令,執行平臺的策略意志。

其次,與傳統系統更關注用戶的短期行為不同,大語言模型具備較長上下文窗口的理解能力,因此可以將海量的長曆史週期的用戶資料投餵進去,從而讓系統可以在更長的時間維度中理解用戶行為。而語言模型的推理能力使其能預測用戶需求的演進,從而讓系統跳出只依靠用戶短期行為而出現「信息繭房」現象。

在 RecGPT 中,大模型更像是在傳統的預估模型之外增加了一個模塊化的能力。它不替代預估模型,而只是預估模型外前置了一個更高效的篩選與排序裝置,從而讓系統的身段變得更加靈活。而姜宇寧認為,這樣的靈活會進一步推動淘推薦生態的變化——新用戶、長尾商品、創意屬性的高情緒價值的商品會因此收益,比如曝光量增長最品類其實是潮流服飾和新奇玩具

姜宇寧認為,推薦系統的 AI 進程其實與平臺的屬性、目標不無關係。

淘寶的優勢在於豐富的商品供應與用戶數據資源,而淘寶的戰略是萬能淘寶,這意味着用戶需要在手淘裏有更沉浸式的消費體驗、讓海量商品與高個性化的用戶產生高質量的鏈接,而這一切都恰好是大語言模型擅長的事情。技術架構設計必然是服務業務戰略,姜宇寧對 AI 科技評論表示,相反,假如狂推頭部爆品或者逮着低價商品推,其實都不太需要一個大模型來輔助推薦模型。

姜宇寧透露,目前 RecGPT 的版本是在各個環節輔助推薦系統,而下一步是要在所有環節上建設一個大模型指揮官,協調和指揮推薦所有環節,從而推薦系統更好的一致性。至於行業討論很火端到端方案,姜宇寧認為它可能是未來的最優解,但目前仍需要保持謹慎探索的態度。他對 AI 科技評論表示,現在各家端到端方案借鑑了大模型的 scaling-up 思路浪費了語言模型豐富世界知識和推理能力,其實是買櫝還珠

而一切到最後都要回到 ROI 上。每當姜宇寧提到端到端,他總會配上 ROI 這個詞,整個人保持一種不否認但也不興奮的觀望狀態。

正如他在結尾所說的,十幾年 A算法從業經驗教會他的事情是,「 AI 一定要創造商業價值,一定要落到業務場景裏並且形成正向的商業循環, AI 才能在裏面落地生根發芽。

這大概就是的 AI 團隊與其他團隊最大的不同。

以下是本次專訪的內容,AI 科技評論作了不改原意的整理與編輯:

01

推薦系統是個黑盒,大模型能讓它白盒化

AI 科技評論:聽說你們是第一個將大模型能力落地到推薦系統中的團隊。

姜宇寧:其實最近兩年國內外都有不少做大模型和推薦算法結合的研究工作不過推薦是一個系統級能力,分成很多環節和模塊,我們將每一個環節模塊都做了改造,所以我們算是第一個(用大模型)系統化改造推薦系統並全量到生產環境的。

AI 科技評論:不同的玩家似乎在推薦這件事情上採用了不同的邏輯,比如快手亞馬遜,都提出了一些端到端的概念,但你們是分段的方式。

姜宇寧:對,這是兩個完全不同的思路。

端到端本質並沒有在用大模型的能力,它是在模仿大模型在 NLP 裏面的成功經驗,在藉助 scaling law 的方法論。

我們其實也在做類似端到端的嘗試。但它的 ROI 不一定會很高,可能需要大量資源才能上漲一點的收益。所以在當前階段,分段和現有推薦系統結合是大模型可以比較快拿到回報的事情。

AI 科技評論:能不能理解說,我們目前分段是階段性的,早晚也是要去做端到端的?

姜宇寧:(端到端)肯定會做的。但現在大模型的能力很強,如果你不用它的能力,而只用它的建模方法,其實有點買櫝還珠的感覺。

其次,過去推薦模式是黑盒的形式。為什麼給你推這個東西,你完全不瞭解,可控性也非常差。不可解釋。就像大家現在刷抖音,需要養號,要點很多東西以後纔會推想看的東西。但是大模型可以推進系統的白盒化——因為推薦系統有了語言遵從能力,所以可以讓系統朝着平臺或用戶自己想要的方向去做推薦。

AI 科技評論:很有意思,大家之前聊大模型都說模型是黑盒,但現在反而能讓推薦系統變成白盒?

姜宇寧:大模型本身當然是黑盒的。但是如果拿過來用,已經比原來的算法有了更多可解釋性。過去 NLP 或者 CV 問題,結果為何,不可解釋。但現在大模型有 thinking 的過程。

雖然大模型為什麼這麼想,終究是不可解釋的。但如果你把它當做插件,接到原來的算法裏,原來的算法就有了一定的可解釋性。

AI 科技評論:推薦系統為什麼是一個黑盒?可以解釋一下嗎?

姜宇寧:推薦系統的本質是,你一邊有一個用戶,另一邊有幾十億個商品,你要從中找到最匹配二三十個商品

匹配分是由一個類似雙塔結構模型送上去,一邊是用戶特徵一邊是商品特徵,吭哧吭哧算完後出來一個數字,比方說,「0.9」「0.9」代表了什麼?它不具備可解釋性——多大程度上跟你的什麼興趣、什麼特點匹配,其實是不知道的。

就像你在短視頻裏刷到一個博主,平臺有那麼多的博主,但為什麼就是 A,而不是 B?系統說我就是認為你更喜歡 A,至於為什麼,系統其實回答不了這個問題。

AI 科技評論:傳統推薦模型沒有辦法還原它的權重是如何分配的嗎?不能嘗試去拆解這個權重嗎,看它有哪些大類的影響?

姜宇寧:這就是要涉及到一個推薦系統的基本原理——協同過濾

你可以這麼理解:推薦模型的權重並不僅僅是通過你一個人的行為,而是通過幾億用戶的行為學習出來的。哪些跟你有類似行為的用戶,他們又點擊了哪些商品,我們構建了數十億這樣的行為對,模型的權重是在這個數據基礎上學習到的統計值。因此,它沒有辦法被簡單還原到某個個體行為上:你有什麼特徵,所以出了推什麼結果。

當然我們可以去嘗試解釋,但這更像一個事後的找補——分已經打出來了,再做一個事後諸葛亮。

AI 科技評論:那既然都是匹配,為什麼傳統推薦模型難以解釋,但是大模型就可以?

姜宇寧:首先傳統打分模型並沒有被替換掉,大模型相當於在幫它找候選集。大模型的好處是,我可以在匹配的時候,直接要求系統給出大致匹配的理由。然後再讓系統遵從你的語言指令,通過對用戶不同維度的拆解,來匹配商品。

比如,給定一個用戶畫像,和一個有語義遵從能力的推薦大模型,你可以對說,從用戶3天內的購買行為來推薦商品,也可以「請從用戶居住地的天氣來推薦商品」。這樣候選的商品其實就遵從了不同的維度

其次,大模型的思考能力讓它有了延伸推理的可能。比如,系統發現我買了奧特曼的東西,進而推斷我可能是有個喜歡日本動漫的小孩,從而推出我可能需要有兒童書籍的需求相當於可以跳出過去歷史行為去做進一步延伸分析的,而且它延伸的維度,是按照你的 prompt 提示詞去延伸的。

AI 科技評論:所以如果用了大模型,其實系統可以推薦過去推不到的東西?

姜宇寧:,我認為大語言模型對推薦系統最大的收益就來自兩點:推理能力以及語言遵從能力

剛上面提到的,大模型的推理能力能讓推薦系統更具有「可解釋的發現性」,讓推薦結果既在意料之外,又在情理之中。而語言遵從能力能讓大模型具有「可調度性」,我們可以去直接命令大模型,按照什麼維度去推,不要推看過的不要推歷史過久的要新鮮的。這樣真的實現了「 human in the loop 

AI 科技評論:這是不是意味着運營人才也能加入其中。

姜宇寧:對,他對推薦系統的好處是開了一個口子,使得除了算法工程師外的很多人能參與進來,貢獻想法。

大互聯網平臺有非常實際的業務問題,即推薦系統在大流量平臺中承擔了非常多的調度功能,不完全是效率導向的。你可以認為推薦系統是一個供電網絡,要通過調度流量,根據需求把流量分到不同的行業和內容——除了滿足一定的效率約束外,還要思考如何讓他指哪打哪。

過去的方法可能是要算法同學調度系統,或者去做加權或者降權,才能達成這個目的。但現在我可以直接告訴系統,今天有什麼熱點,着重去推薦這個東西。一句話就能搞定。

AI 科技評論:所以可調度性其實是很重要的。

姜宇寧:我是做算法出身的,算法本身是追求效率最大化的。但在實際上任何算法都不全知全能,它需要策略的干預。比如今天有一天突發熱點,什麼發佈會上同款軍大衣突然火了,靠純算法效率驅動一定會有滯後性。那如何能快速且高效地調度流量分配就很考驗推薦系統的整體設計。

我認為在大模型+推薦系統的結合中,一方面要追求效率的提升,一方面也要兼顧可調度性。最近友商發表的一些論文其實沒有真正考慮到可調度的推薦場景。我們要知道,推薦系統背後其實是有平臺意的。

AI 科技評論:路線選擇不同,會不會跟平臺特性也有關係?因為淘寶其實是運營相對重的公司。

姜宇寧:未必。其實很多平臺都有很強的運營屬性。這最後就是一個在效率最優和可調度性之間的平衡問題。就像一個小孩,他總能考很高的分數,但是跟人交流的能力不太行,不能按照你的指令做事,有時你也會很頭疼。而大模型現在提供了一個能夠把兩者兼得的可行路徑。

02

大模型在推薦系統落地晚,因為 Baseline 太高

AI 科技評論:其實 GPT-3.5 已經出來兩年多了,你們技術報告裏也提到,用大模型來改造推薦系統的嘗試其實相對較少,這是為什麼呢?

姜宇寧:看要跟誰比了。你看大模型出來以後,大家的第一反應是改造搜索,而不是推薦。因為大模型天然適合對話,而推薦是沒有對話入口的。推薦是你進了這個飯店,小二給你上什麼菜你就喫什麼菜,你沒有點單的權利,但是搜索系統你是可以點單的。所以推薦上的改造慢於搜索,這是大語言模型本身特性決定的。

AI 科技評論:但推薦是一個價值很高的場景。所以按道理,一旦有新技術,大家都應該會跟進探索。你覺得它落地比較晚,背後的技術難度在哪裏?

姜宇寧:我覺得最大難度是原來一套系統的 baseline 已經太高了。推薦算法其實是一個系統科學,發展了十多年,現在不管是基於協同過濾,還是基於什麼其他的方法,已經推得非常準了。尤其對深度用戶的行為,累計了很多數據,系統對你非常瞭解了你的歷史行為序列,雖然它是黑盒算的,但一定能找到非常好的匹配。然後會把你的整體的指標用戶指標拉得非常高。

但推薦系統有的時候黏性高,是有毒它造成了非常強的繭房效應。如果基於歷史信息推薦,就會越推越類似。另外一面,我們反過來,假如用戶是新進入的,原有的系統其實就很難推這其實都是一個問題的一體兩面。

AI 科技評論:傳統模型和大模型的關係到底是怎麼樣的?為什麼無法被大模型替代呢?

姜宇寧:其實現在一些端到端的構想,到最後仍然接了一個傳統深度學習模型。

假設我們有 A個商品,推薦系統不是簡單地做排序,知道 比 好就可以了,而是要給他們打一個分數比 好多少,20%50%還是100%。因為推薦系統,尤其是電商領域,要跟成交金額、廣告收入、抽傭等等數字相關,所以你需要量化推薦的分數。

AI 確實適合幹非常多的事情,比如基於長上下文的推理,就是不適合幹精確數字計算的活。所以 AI 目前是做初步篩選,剩下精確數值計算的部分交給傳統的打分模型來做。

AI 科技評論:這種長上下文的輸入,在技術實現上的效率高嗎?

姜宇寧:我覺得這是我們這次的核心進步之一。

原來推薦系統更喜歡關注近期行為,尤其是這一兩週買了什麼、看了什麼,就會拼命推,但往往會忘記用戶的長期興趣。而 RecGPT 可以從長期興趣的角度出發,完成更多的探索。

不僅如此,我們基於用戶數據逐步實現了一些推理能力。比如一年前你買了孕婦相關的東西,那麼一年後就不能再推孕婦產品,而是要推寶寶產品了。所以標籤本身也具備了演化和推理能力。

AI 科技評論:所以過去的標籤是沒有演化的嗎?

姜宇寧:以前的標籤如果要演化,必須是你有了某種行為之後纔行。比如標籤什麼時候從孕婦演化成寶媽呢?就是當你開始買嬰兒產品的時候。

所以傳統推薦系統的學習是後置的:你先有某個行為,模型學習到了,再給你推薦。但大模型的推理能力就能讓推薦模型的更新發生在用戶行為之前。

AI 科技評論:你剛纔說,大模型在搜索領域的發展比推薦更早。但電商的場景裏似乎不太一樣,好像推薦的落地比搜索更前?

姜宇寧:其實也不是。電商有很多落地沒有被大家看見。但有一點是:電商是一個偏消費決策的場景,不是一個做信息收集類的場景。所以大模型在電商搜索上的應用,並不是在於帶來多 fancy 的信息交互形式,而更側重在如何更準確地理解用戶意圖,如何產生更高質量的數據,如何潛移默化地影響用戶做決策。這些背後的改進只是不容易被注意到罷了。

AI 科技評論:其實大家之前確實也做過通過自然語言交互去做電商搜索的嘗試。

姜宇寧:就像剛纔說的,大家在搜某個具體東西的時候,大部分時間已經做好決策,不需要大語言模型再去寫一大段文字告訴他們應該買什麼。

大模型在電商搜索正在的應用應該在於:當用戶搜索「網球拍」時,你得知道這個用戶到底是什麼特性?比如,價格敏感型還是服務敏感型?新手初學還是進階選手?接着你再根據用戶特性去推薦服務最好的商家或最便宜的商家,入門裝備或高階裝備這纔是真正能提升用戶體驗的地方。

03

所有的推薦系統都是 EE 問題

AI 科技評論:你曾經講過70%內容是基於推薦引擎,30%內容是試錯,目的是讓系統不要進入繭房效應的同時又保證效率。

姜宇寧:對,我們就是要想辦法,保證70%的部分效率不跌的情況下,把30%的效率提上去。

其實所有推薦系統都是一個 EE 問題( Exploitation Exploration利用與探索),在兩個E中尋求平衡。過去,Exploration 的部分是幾乎隨機的策略,跟扔骰子一樣。但現在有了 RecGPT 的大模型輔助,這部分的效率會顯著提升。它也能遵循指令,比如讓用戶探索一下零食品類、服飾品類等,不再完全是盲目的探索了。

AI 科技評論: Exploration 給 Exploitation提供了更多的數據,如果前者更高效、沉澱數據的效率更高,那麼後面也相應會更高效,這樣形成一個AI模型傳統模型之間的循環?

姜宇寧:是的。我們可以將系統分成效率圈探索圈探索圈漲得快,數據纔可以補到效率圈,與用戶發生關係的商品纔會越來越多。

AI 科技評論:那能不能這麼理解:效率圈就是靠傳統推薦模型,探索圈就是靠大語言模型

姜宇寧:這麼說不準確,其實兩個圈或叫兩個任務升級到了大語言模型加傳統推薦模型的新模式。只是這個模式對 Exploration 的幫助比對 Exploitation的更大。

AI 科技評論:這兩者的效率提升之差能有多少?

姜宇寧:效率圈是個位數的增加,探索圈的提升能有百分之五十以上。

回到推薦系統難點的那個問題。原來大模型想要提升效率圈的效果,會發現投入大量資源,但提升效果有限,因為系統已經做得很好了。反而探索圈是一個靠傳統方法很難做好的部分,大模型應用空間就很大。

AI 科技評論:那是不是可以理解,大模型的應用會對新用戶很友好?

姜宇寧:(對)新用戶和長尾商品(都友好)。

這套系統緩解了商品的馬太效應。假如我們效率圈的曝光是70%,這70%曝光其實只給了10%的商品,而剩下30%探索圈的曝光,分配給了90%的商品。這其實非常不均勻。

而一個商品從探索圈進入效率圈的前提,必須是要讓商品和人之間產生點擊,然後才能打準分數因為長尾商品的打分是很難準確的,所以探索圈的點擊效率就是很低的。假如300探索曝光只收獲了6個點擊,那麼其實只有 個有效的數據可以被效率圈學習到;但大模型上來後,我可能有 10 個點擊,那就會有更多商品被激活,能夠進入到效率圈

AI 科技評論:所以淘寶過去數據很多,但很多其實是沒有被激活的。

姜宇寧:淘寶萬能淘寶」,在所有電商平臺裏,淘寶的商品豐富度是最多的。我們平常看到的淘寶,只是淘寶商品庫中的一小部分,它有大量好玩的商品其實沒有被推出來。所以才需要我們利用大模型去改善這一點。

AI 科技評論:其實很多用戶都吐槽,為什麼大數據會給我推很多我購買過的內容。為什麼這件事情就是規避不了呢?比如做一個簡單的規則。

姜宇寧:因為任何規則都或多或少有漏洞。

比如我買了一包開心果,覺得很不錯,我確實想復購,但是系統再也不推了。或者這個規則的時間範圍該怎麼設定?3天之內不出,還是3個月、9個月不出?這個週期該怎麼定?那如果今天我復購的是一袋洗衣粉,這個週期還適用嗎?

所以我現在更希望把事情放到前鏈路去做,儘量讓大模型去學習和判斷,這個商品到底有沒有復購屬性,週期該怎麼設定,而不是簡簡單單拍個規則

AI 科技評論:你剛纔說,RecGPT 對新用戶很友好。那像閃購、外賣這樣的業務進來以後,平臺的日活漲了很多,都是新用戶,對於推薦系統來說是不是有壓力的?RecGPT 剛好能發揮作用?

姜宇寧:我們當然希望能看到這樣的增長。新用戶進來,能不能轉化地好,其實很大程度上也是我們推得好不好。這其實對我們來說是很大的挑戰和機會。因為他們之前的購物都是非傳統電商的行為,比如外賣、奶茶,以及一些身份和地點信息。

AI 科技評論:什麼樣的商品推薦是比較適合留下閃購用戶的?

姜宇寧:零食是很天然的轉化品類。用戶喫過什麼外賣,喜歡什麼口味的,如果愛喫辣的,首頁就可以推辣條。我最近發現,我們經常給一些四川的同學推重慶米線,效果還不錯。

04

果只推低價,是不需要大語言模型的

AI 科技評論:我們在做評判的時候,好像既採用了人工評判,也做了一個小的模型。你們是出於什麼考慮這樣做的?

姜宇寧:假如用一個大模型去做對話機器人,其中最難的事情之一,可能就是把好的對話的標準定義出來。電商也是一樣,大模型總結出了一個用戶畫像,這個畫像好還是不好、是否全面,我們其實做了大量的人工的檢驗——我們不是標註,只是檢驗。

比如,我的標籤是一個極客,那大模型給我推一個純鈦水杯是否合理?商品庫裏是否真的存在一個純鈦水杯?如果不存在,那說明出現了幻覺。但人工的標註成本是很高的,所以我們會把結果記錄下來,再用另外一個模型去學習人工標註。

AI 科技評論:你覺得推薦是有數據飛輪的嗎?如果一個平臺數據更多、供應更多、行為的維度更多,是不是這樣的平臺在未來的AI時代就是更有機會的?

姜宇寧:當然,毫無疑問。做 AI 一定要充足的現金流、好的商業循環和好的數據循環,缺一不可。

AI 科技評論:我們有涉及到多模態的內容麼?未來大模型會學習人類審美來做推薦麼?

姜宇寧:審美這件事情還是由用戶來決定的,平臺只是來做匹配。

但我們接下來會做一個新的基於多模態的 ID 體系。這樣商品的 ID 數量會大幅減少,不再依賴原來一個商品一個鏈接對應一個 I這樣一個商品哪怕更換商品鏈接,它的語義 I是不會變的。

AI科技評論:這聽起來是一個改變非常大的事情。

姜宇寧:會改變很多商家的運營習慣吧,原來很多商家喜歡養鏈接,把不同的商品掛在一個鏈接上來繼承流量,這造成了一些「貨不對板」的情況,但以後這樣做就沒有收益了。

AI 科技評論:你覺得不同的平臺生態,對推薦策略和技術的需求有什麼不同?

姜宇寧:當然有。比如你如果做的是極致低價策略那麼就是要製造同品的價格內卷,每個 ID 裏只出價格最低的那個商品。所以整個推薦架構必然是服務於這個業務戰略。我們的 RecGPT 本質上是服務萬能淘寶的。我們既不是狂推頭部熱銷品,也不是逮着低價商品來推,所以才需要 RecGPT 這樣的算法設計

其實商品豐富性對於淘寶的 AI 發展來說是一個很大的優勢,我們的推薦系統能比別人回答更多的問題。說實話,如果你只是同品類推一個低價,其實不需要 AI 去推的。

AI 科技評論:如果我們接下來進入 AI 大模型推薦的時代,你對商家有什麼建議?

姜宇寧:多研究平臺的政策和規則,多做創意。你知道系統上線後,哪個品類增長最快嗎?玩具。有更高情緒價值的新、奇、特商品,一定會得到更好的流量回報

05

推薦系統離「驚嚇」還很遠

AI 科技評論:你們有沒有考慮過,如果用戶覺得系統太懂自己了,可能會覺得被冒犯?

姜宇寧:以目前的技術水平來說,這樣的情況並不多見

我前兩天遇到一個巧合,我正在一邊同事買的某款肉鬆,一邊邊刷淘寶,突然發現竟然給我推薦了一個完全同款,把我嚇了一跳。後來我專門研究了這個 case ,其實就是簡單的巧合——因為這個肉鬆的商家在大力推廣告,所以同事被種草了,而我刷到的其實也就是商家的廣告而已。

未來如果真的出現類似精準的情況,確實不知道是驚喜多一點,還是驚嚇多一點。不過總的來說,目前推薦系統離讓人有監視感的程度還非常遠,現在大家吐槽最多的還是信息繭房

AI 科技評論:但假設我買了一個紙尿褲,平臺立刻知道我要生小孩了,我可能就會有被冒犯的感覺。

姜宇寧:像我們最近在猜你喜歡主頁的商品下面加入推薦理由,內部是有明確的審核與風控的,涉及到用戶的年齡、身高、外表都不會有任何評價。

其實隱私不止是用戶的事情,對於平臺也是有很大的風險的。比如,在敏感的時間節點有文化敏感的人羣,誤推了一些敏感的商品等等。我們過去只能硬寫規則,但系統本身是無法理解的。有了大模型以後,類似的風險會更容易被規避掉。

06

未來要讓大模型做推薦指揮官

AI 科技評論:在你看來,未來推薦系統技術演變的方向是什麼?

姜宇寧:三條路。

第一條路我叫它「插件式」,也就 RecGPT 現在的方式,用大模型去對現在推薦系統的每一個環節做改造增強。利用它的推理、長週期的記憶能力,來豐富系統能力。

條路是讓大模型做推薦系統的指揮官構建一個大腦去做每一個環節的控制。因為現在推薦系統還是有非常多環節的,如果每一個環節各自優化、各自迭代,會導致推薦系統出現不一致性。如果有一個指揮官,我可以在不同的時間階段去做不同的策略部署。比如雙十一,那就成交效率最大化,那推薦各個環節就都以成交為目標;或者日常的一些時間,可以是種草目標為主,那各個環節都調整對齊到種草目標由這個大模型大腦通過超參來調度推薦全系統,提升一致性。

條路就是我們說的「端到端」,即減少中間環節同時對打分模型做 scaling law 。如果我們相信,規模就能產生奇蹟,那麼既然在 NLPCV 問題上能成功,推薦系統也有可能會成功。

AI 科技評論:你覺得它是不同的演化階段嗎?從12,再到3

姜宇寧:從實現難度上來看,是這樣的。

AI 科技評論:其實大家對第條路還是很癡迷的。

姜宇寧:十年前,推薦系統只是一個簡單的迴歸模型。深度學習先在 CV 和 NLP 問題證明了自己,才被用到推薦系統裏,變成了 DIN 等現在主流的深度推薦模型

為什麼大家信 one model(端到端)?因為這好像跟十年前非常相似,又是一個新的模型結構,比原來的更大(深度學習也要比邏輯迴歸大很多)同樣在 CV 和 NLP 問題裏證明了成功,所以很容易讓大家產生一些思維認知的慣性。

我從來不否認這個方向的可能性,但推薦任務性質和自然語言很大不同。這個任務上,推薦模型要 scaling-up 多少才能讓它具有質變的能力達到這個質變要付出的成本我們需要算 ROI 

AI 科技評論:這和目前大模型的智能上限有關係嗎?

姜宇寧:推薦系統裏做 scaling law 跟這個沒關係,因為它沒有真的用大模型的智能,只是把打分模型做大了幾十倍、甚至幾百倍的參數。它沒有世界的知識,只是一個更強的考官而已。

AI 科技評論:你覺得淘寶現在什麼階段?

姜宇寧:12之間吧。接下來要往2的方向去走,我也相信這條大模型指揮官的方式很快實現。同時也會有人探索3端到端的事情。

AI 科技評論:你曾經是曠視工號第五的員工,經歷了從 CV AI 到大語言模型的十餘年曆程。你覺得過去的經歷,對你現在來說最寶貴的經驗是什麼?

姜宇寧:AI 一定要創造商業價值。一定要通過正向的商業循環,能夠找到一個業務場景,AI 才能在裏面落地生根發芽

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10