那個做出可靈的人,回阿里又造了一匹黑馬

字母榜
04/13

文 | 字母AI

AI視頻這條賽道,最近有點冷,Seedance 2.0陷入版權爭議,OpenAI關停Sora ,讓這條賽道上空陰霾密佈。

就在這個時候,阿里牽出來了一匹黑馬。

2026年4月,HappyHorse-1.0衝上Artificial Analysis榜首,在文生視頻和圖生視頻(無音頻)兩個賽道同時壓過字節、快手等對手。

張迪在2025年11月迴歸阿里巴巴,接任淘天集團未來生活實驗室負責人一職,並直接向阿里媽媽CTO鄭波彙報工作。

也就是說,張迪從迴歸到闖出名堂,中間也就隔了5個月左右。

關鍵在於,HappyHorse和阿里的千問一樣,開放了可商用的開源版本。

現在千問在阿里什麼地位?它是阿里集團級的核心通用大模型底座、AI戰略的絕對核心載體。阿里現如今的一切,都是在圍繞千問進行佈局。

所以HappyHorse對阿里的意義,可能也遠不止是一個刷榜秀技術的模型那麼簡單。

不過在理解阿里的想法之前,我們應該先來聊聊,張迪是誰。

01 從阿里到快手再回阿里

張迪畢業於上海交通大學計算機專業,本碩連讀,2010年畢業後加入阿里巴巴,長期負責阿里媽媽的大數據和機器學習工程架構。

阿里媽媽做的是廣告、推薦、搜索和轉化,背後是大規模數據、大規模分發和複雜工程系統。這些東西聽起來沒有大模型那麼熱鬧,但它們正是後來中國互聯網公司訓練AI人才的地方。

很多真正能把模型做成產品的人,並不是純粹從實驗室裏出來的。他們更早經歷過搜索、推薦、廣告、內容分發這些系統的歷練。

這我隨便舉幾個例子你就懂了。谷歌CEO桑達爾·皮查伊,他就是做搜索欄和Youtube內容推薦出身的,微軟的CEO薩提亞·納德拉,他在微軟一開始開發的就是必應搜索引擎和微軟廣告體系。

因為這些系統每天都在處理海量用戶行為,也要求模型能在真實業務裏穩定運行。它不允許工程師只做一個好看的demo,它強迫你做出真正有用的東西出來,還必須在延遲、成本、效果、反饋之間反覆取捨。

張迪在阿里的十年,大致就是在這樣的環境裏度過的。那時候外界還沒有把所有事情都叫作大模型,但阿里內部早就有一套圍繞數據、算法和工程化的訓練場。

2020年,張迪離開阿里去了快手。

當時的短視頻平台,已經從流量競爭進入技術競爭階段。張迪在快手歷任技術副總裁、大模型與多媒體技術團隊負責人,後來主導了可靈大模型的底層架構研發和應用落地。

可靈對快手的意義是非常重大的。

可靈讓快手從過去的 「內容分發平台」,升級為 「內容生產基礎設施提供商」,構建了 「創意生成-視頻製作-一鍵分發-流量變現-數據迭代」 的完整閉環

2025年4月,快手成立可靈AI事業部,並升級為公司一級部門,直接向 CEO 程一笑彙報,與短視頻主業務平起平坐。

所以當他在2025年9月短暫加入B站,又在兩個月後回到阿里時,這個動作就很難只看成一次普通的人才流動。

B站需要視頻技術,阿里同樣需要視頻技術,只是阿里的需求更復雜。

快手做視頻生成,無非就是分發。但阿里要是做視頻生成,那背後牽連的環節就多了去了。有電商、廣告、直播、雲服務和海外商家。

前文提到,張迪2025年11月迴歸阿里後,出任淘天集團「未來生活實驗室」負責人,職級P11。

如此安排下來,阿里味還是很濃的。它沒有把視頻模型簡單放在一個純研究部門裏,其位置反而更靠近淘天這樣一個交易現場。

換句話說,HappyHorse從構思開始,就是一個強調落地,和阿里現有生態綁定的產品。

五個月後,HappyHorse出現了。

這個速度確實快,阿里給了張迪一個新的業務場景和團隊,他把視頻模型這條路線再次打通。

他既不是從零開始進入AI視頻,也不是單純從外部空降到阿里。

他的職業路徑像一條繞出去又繞回來的線。先在阿里學會大規模商業系統怎麼運轉,再去快手把視頻生成做成產品,然後又回到阿里,把這套能力放進更大的商業機器裏。

很多公司都在搶大模型人才,但真正稀缺的人,往往是能同時理解模型、業務和組織的人。

單純會訓練模型的人很多,單純會講戰略的人也很多,難的是有人知道一個模型從技術路線開始,到架構設計,到訓練推理,到產品出口,到最後被商家和用戶用起來,中間每一步會在哪裏卡住。

HappyHorse把張迪重新推到台前,也讓阿里過去幾年相對分散的AI敘事有了一個更具體的人物入口。

02 開源模型如何擊敗閉源巨頭

HappyHorse真正引起關注的點,在於它贏得太突然了。

在視頻生成這條賽道上,海外有Runway、Pika、Luma、Google的Veo,國內有字節的Seedance、快手的可靈。阿里排不上號。

所以當HappyHorse剛屠榜的時候,大家甚至更願意相信說這是某創業公司開發的模型,也不願意相信這是阿里的模型。

HappyHorse在文本轉視頻和圖像轉視頻兩個賽道都處在第一梯隊,文本轉視頻Elo分數為1333,圖像轉視頻Elo分數為1392。

Artificial Analysis的排行榜本身會隨用戶盲測不斷變化,後續頁面分數也有更新,但是它確實在用戶偏好測試中壓過了一批更早出名的閉源模型。

這事其實挺反常的。通常來說,視頻生成是最喫錢、喫數據、喫算力的方向之一。

閉源大廠可以把數據、模型細節、推理系統和產品體驗藏在自己平台裏,持續做內部迭代。

開源模型則要面對更多現實限制,它的參數要能公開,推理要能跑起來,社區要能復現,效果還要經得起橫向比較。

所以在HappyHorse出現之前,開源視頻模型大多數都是玩具,輸出的視頻不夠穩定,人物還經常會出現漂移。

HappyHorse有150億參數、40層統一自注意力Transformer架構,把文本、視頻、音頻三種模態的token放進同一個序列裏聯合建模。

這個路數和千問非常像,這也就解釋了為什麼張迪僅用5個月就把HappyHorse弄出來了,很可能是沿用千問留下來的高質量原生多模態訓練方法。

像Sora這種非多模態原生的視頻生成模型,經常會出現人物嘴在動,聲音慢半拍的情況。並且有時候人物表情很豐富,但語氣不對。人物還有可能在聲音發出之前就行動了。

HappyHorse評分高的原因就在於,它通過原生多模態解決了這個問題。

HappyHorse原生支持英語、普通話、粵語、日語、韓語、德語、法語等多種語言的脣形同步,詞錯誤率也被拿來和同類開源模型比較。

張迪為什麼要這樣做?我的理解是,如果阿里想讓視頻生這項技術進入廣告、電商、短劇、教育和直播,就不能只靠畫面漂亮。

它要能說話,要能配音,要讓聲音和畫面同時成立。

另一個關鍵點是成本和速度。

HappyHorse在單張H100 GPU上生成5秒1080p視頻約需38秒,並採用DMD-2蒸餾技術把去噪步驟壓到8步。

這是視頻生成商業化繞不開的一道坎。模型效果再好,如果生成一條短視頻成本太高、等待太久,就很難進入商家日常工作流。

商家不會為每個商品等半天,也不會為幾十個測試素材支付過高成本。

所以HappyHorse的意義不只是「能生成」,還在於它試圖把生成速度和推理成本壓到可用區間。

對開發者來說,開源意味着可以自託管、微調、接入自己的產品。對平台來說,開源也會帶來更多社區反饋

一個閉源模型的進步主要依靠公司內部團隊,一個開源模型會被開發者拿去做各種奇怪測試,問題暴露得快,改進方向也會變多。

Artificial Analysis的視頻競技場採用用戶偏好投票,很多時候不只看某一個技術指標,更看用戶在兩段視頻之間更喜歡哪一個。

當然,張迪還不能太驕傲,一次排行榜登頂不等於永遠領先。

競爭對手不會停在原地。HappyHorse現在贏下的只是一場公開測試,還不是整個戰爭。

HappyHorse如果只是一個能刷榜的模型,它的意義有限。可如果它能成為阿里雲、淘天業務共同使用的視頻生成底座,它就會變成一個入口。

所以說HappyHorse擊敗閉源巨頭,最有意思的地方並不只是分數領先。真正值得關注的是,它讓阿里找到了一種重新進入視頻生成牌桌的方式。

它沒有先做一個面向C端用戶的APP,也沒有隻在內部做演示,而是直接拿開源模型接受全行業檢驗。

這場勝利未必會持續很久,但張迪讓外界改變了對阿里在視頻生成模型上的判斷。

新的問題變成了,阿里準備把這項能力用到哪裏?

03 HappyHorse對阿里的意義

HappyHorse最直接的落點,是電商。

過去大家談AI視頻,最容易想到影視、短劇、廣告大片、創作者工具。誠然,這些都是實打實的大市場,不過它們離阿里的主業務還有一段距離。

阿里的優勢不在於自己做一個視頻社區,也不在於讓普通用戶每天打開一個AI視頻APP消磨時間。阿里真正有優勢的地方,是它手裏有中國最密集的商品、商家、交易和廣告系統。

這也是為什麼很多人都在意說HappyHorse誕生於淘天集團的「未來生活實驗室」。

淘天每天面對的是商家怎麼賣貨,商品怎麼被看見,用戶為什麼點進來,又為什麼下單。HappyHorse放在這裏,大家自然就會想到它能不能提高商品內容生產效率,能不能提高轉化,能不能幫平台多做生意?

對一個普通商家來說,視頻內容一直是個麻煩事。

拍一條30秒的商品視頻,你要找場景、找模特、打光、剪輯、配音。大品牌可以請團隊,中小商家更多時候只能自己湊。

很多商品賣點並不複雜,問題在於沒人把賣點拍出來。它們放在白底圖裏都很普通,一旦進入具體場景,用戶纔會意識到它能用來做什麼。

前一陣在海外,太陽能噴泉泵這個產品賣爆了,它原本只是庭院小件,效果也就那麼回事。但是被AI視頻包裝成鳥浴盆、魚池和兒童浴缸裏,酷炫的噴水玩具後,所有人都在瘋搶。

AI沒有改變商品本身,卻改變了用戶理解商品的方式。它把「功能說明」變成了「使用場景」。

這正好擊中電商內容的痛點。

商品頁裏寫滿參數,用戶未必有耐心看;主播講半天,用戶也未必相信。但一條十幾秒的視頻,如果能把場景講清楚,轉化效率可能會高很多。

更重要的是,AI視頻可以批量生成。商家可以為同一個商品生成兒童版、家庭版、節日版、戶外版,也可以為不同國家生成不同語言、不同人物、不同場景。

這對阿里的意義,比單純做一個視頻生成工具要大。無論是淘寶,還是天貓,上面都有大量商家,也都有大量商品數據和交易反饋。

一個AI視頻工具如果只知道生成漂亮畫面,它很快會變成素材軟件;如果它能知道這個商品在什麼場景下更容易被點擊,什麼文案更容易帶來加購,什麼視頻前幾秒更容易留住用戶,它就會接近電商操作系統的一部分。

阿里比其他視頻生成模型公司多出來的,正是這個反饋閉環。

商品圖、詳情頁、評價、問答、搜索詞、點擊率、加購率、退款原因、直播間停留時間,這些東西看起來零碎,卻都是訓練電商內容能力的燃料。

HappyHorse如果接入這些反饋,就可以從「幫商家生成一條視頻」,進化到「幫商家生成更可能賣貨的視頻」。

面向淘天,它可以做主圖視頻、商品場景短片、直播切片、虛擬主播和營銷素材。

過去一個商家上新,可能只上傳幾張圖,最多再拍一條粗糙短視頻。以後它可以把商品圖、賣點、評價和人群標籤交給系統,讓系統生成多條不同版本的視頻,再用真實投放和成交數據篩選出更有效的那一條。

這個過程如果跑順了,平台內容供給會明顯增加,中小商家的內容門檻也會下降。

不過,AI視頻帶貨也有風險。它可以放大賣點,也可能放大幻覺。一個噴泉泵在AI視頻裏噴得很高,現實裏達不到那樣的效果。

阿里的機會不該是縱容商家用AI造夢,重點應該放在商品參數、實拍素材、買家評價和平台審核上,讓生成內容有邊界。

3月下旬,OpenAI宣佈關停Sora獨立應用和相關API。原因很現實,視頻生成太燒錢,用戶留存撐不起成本,OpenAI要把算力放回編碼、企業服務和機器人方向。

Sora倒在了商業賬上。

字節也在另一頭遇到麻煩。Seedance 2.0雖然效果也很猛,但是因為版權問題,字節暫停了Seedance 2.0的全球發布。

模型訓練得越強,就越容易踩進版權、肖像權和訓練數據的泥潭。

這時再看張迪帶隊做出的HappyHorse,它有清晰的商業場景。而且阿里手裏的商品圖、商家素材、實拍視頻和交易反饋,天然比影視IP更適合可控生成。

所以HappyHorse的價值,不只在排行榜。它給AI視頻找了一個更穩的落點。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10