阿里巴巴中國電商事業羣鄭波:多模態智能是淘寶最重要的AI技術域

DoNews
10/24

10月24日,阿里巴巴中國電商事業羣首席科學家、技術總裁鄭波在CNCC2025大會上,首次透露淘寶全模態大模型最新進展,並系統介紹了多模態智能在淘寶AIGX技術體系的研究和應用,包括多模態生成、生成式推薦(AIGR)、AI Agent等多項最新技術突破。

鄭波指出,從過去兩年多的發展來看,AI處理問題的複雜度每年以5-10倍速度增加,而AI的錯誤率每年降低50%,模型inference(推理)的成本每年也降低一個數量級,按照這一發展趨勢,狹義AGI(在多數開放環境任務完成度超過95%的人類)將在未來5至10年之間實現。淘寶自2003年上線以來,始終堅持技術發展和商業變革雙向驅動,在新的AI時代,多模態智能將是「萬能的淘寶」最重要的技術域。

據介紹,淘寶的全模態大模型「TStars-Omni」,支持輸入文本、圖像、視頻、音頻,輸出文本和音頻,極大程度的對齊了人類感官。該模型在模型基座、視覺編碼器、音頻理解、語音合成等方面進行了深度優化,實現體量小、吞吐快的顯著優勢顯著,性能處於領域第一梯隊,並通過全面的商品理解,滿足用戶深層次推理需求。比如,用戶輸入冰箱和廚房平面圖兩張圖片後提問:「我可以把這個冰箱放進我的廚房嗎?」TStars-Omni模型對圖片進行分析推理後回答:「無法直接嵌入」,並給出建議和提醒。

在多模態生成方面,淘寶推出視頻生成模型的升級版——淘寶星辰·視頻生成模型3.0。該模型採用了更緊湊的16x16x4時空壓縮VAE,在大幅增加DIT參數的情況下,保持推理的高效。高品質、類別平衡的訓練數據,搭配大幅提升的語義理解模塊,使得模型動作更加靈動,語義更精確,畫面更原生。

鄭波現場演示了多模態生成技術在電商場景中的應用。商家只需提供一件連衣裙的平鋪照片,系統將匹配生成一個虛擬模特,之後生成多張模特穿着此連衣裙的、在不同場景的擺拍照片;進一步的,視頻生成模型可將照片生成為視頻片段,並根據首尾幀生成視頻轉場,再生成虛擬模特講解視頻之後,多模態劇本生成和自動剪輯技術將全自動的製作出一條完整的帶貨視頻,大幅降低了商家的內容製作成本。

據悉,多模態智能已經在淘寶AIGX技術體系發揮着越來越重要的作用。淘寶自研的推薦大模型「RecGPT」已全面接入手機淘寶首屏「猜你喜歡」信息流。這款百億參數的多模態大模型,能對10萬量級的上下文進行總結,理解長達十年的用戶信息,全模態認知數億商品,並結合世界知識進行推理。數據顯示,搭載RecGPT的推薦信息流實現用戶點擊量增長超16%,用戶加購次數和停留時長均提升超5%。

此外,鄭波還介紹了近期發佈的AI Agent——iFlow CLI。iFlow CLI支持命令行、IDE插件和Agent SDK等多種使用方式,提供完全免費的國產模型市場,涵蓋編程、廣告創意、學術寫作、攻略制定、流程圖繪製等多個應用場景,面向個人用戶永久免費開放。

特別值得一提的是,為向業界共享AIGX技術體系創新能力,淘寶近期陸續開源了強化學習訓練框架ROLL和生成式預估訓練框架RecIS,通過強化學習和深度學習的大模型訓練完整框架,打通從小模型到超大模型的訓練落地路徑,為推薦系統結合多模態大模型訓練提供技術支撐。聲明:本站轉載此文目的在於傳遞更多信息,並不代表讚同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯繫,我們將在第一時間刪除內容,本網站對此聲明具有最終解釋權。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10