阿里AI之路:耐心者的勝利

市場資訊
06-05

杭州三墩燈綵街 1008 號,是阿里雲辦公所在的園區,這裏現在每週有 70 場參觀講解,訪客們都因阿里的 AI 技術慕名而來。

這種 “ 爆滿 ” 的盛況並非一直如此 。一切的變化,都來自於近兩年阿里在 AI 技術 領域的不斷爆發。

2022 年 11 月 30 日晚上,達摩院有不少人輾轉難眠,因爲那天 ChatGPT 雖然沒有任何宣發的上線, 卻 替其他所有 AI 企業們,更換了一個行業新範式,他們比大多數人更早地知道大洋彼岸正在發生的技術變革。

2025 年 4 月 28 日, Qwen3 發佈前的晚上,阿里通義團隊又再次無眠。外部媒體詢問上線時間的消息不停轟炸,而屏幕上開源代碼的上傳進度條始終在緩慢爬升,所有人像在產房外焦急等待孩子落地的年輕父親。

不同的是,這次不眠夜後,阿里成爲了主角, Qwen3 毫無懸念地登頂了開源模型榜單的榜首。部署旗艦版 Qwen3-235B-A22B 只需要 DeepSeek-R1 三分之一的成本。

更早一些的 2 月份,阿里又被傳將成爲挑剔的蘋果在中國的合作商,並且雙方共同開發的 AI 功能已提交監管機構審批。

短短兩年時間,阿里就在公衆視野中變成了一家存在感極強的 AI 公司。但在回溯歷史,走訪多位相關人士後,我們卻發現阿里 AI 之路的種子似乎在 2007 年就已經埋下。

阿里的 AI 之路並不是一個高效的商業故事,中間存在着反覆,錯誤,也有蟄伏和堅持。在一個巨大商業帝國的背面,認清它的價值需要時間,更需要勇氣,也正是在巨擘的空間裏,一點點的冗餘保證了天才的火種和基因得以存續,蔓延,能始終留在技術變革的牌桌上。

在 2022 年 11 月雲棲大會之前,達摩院其實有一次成爲中國 OpenAI 的機會。

接近達摩院的一位資深員工說,他不止一次回想過這件事。

2022 年 11 月的雲棲大會前,他們團隊內部討論過多次,要不要把當時已經達到萬億級參數 M6 ( MultiModality-to-MultiModality Multitask Mega-transformer ) 在大會上推出。 但再三糾結後,他們還是猶豫了。

彼時,達摩院自研的多模態預訓練模型 M6 ,已經是當時世界上最大的預訓練模型之一。這也是阿里通義的起點。

當時國內主要還在做小模型, M6 這樣體量的大模型出現尚屬首次。並且,超前地選擇了多模態,可以生成文本、圖片還有音頻等,能做到寫小說和作圖。

至於猶豫的原因,我們推測可能是彼時的環境下,中國企業習慣了在前沿科技上跟隨美國, ChatGPT 出現前, M6 的價值評估到底如何,大家心裏也沒底。 M6 完成了不少突破,但用更嚴格的標準來說,其性能還沒有 “ 爆炸性 ” 地強。

儘管如果現在回看 M6 的發育,可以說是極爲快速和誇張。

2020 年,當時的達摩院智能計算實驗室負責人周靖人組建了一支十幾個人的小團隊,啓動了該項目。從 0 成長爲 10 萬億參數模型,他們只用了 1 年多。

彼時, M6 上的很多技術,也都成了現在業界 AI 技術中的主流。

當時團隊就採用瞭如今業內流行的 MoE ( 混合專家 ) 架構,也就是讓一個大模型根據不同任務,調用內部多個專家。

他們改進了 MoE 框架,創造性地通過專家並行策略,大大擴增了單個模型的承載容量。所以 M6 格外省算力,只在 480 張卡上就完成了萬億級參數的模型訓練。

有意思的是,在 M6 的背後,你能見到很多熟悉的名字。 比如清華大學教授唐傑,後來他創立了智譜,而唐傑的學生之一楊植麟又是 Kimi 的創始人。

但即便集合了當時國內最頂尖的人才,整支團隊也並不知道自己到底能不能成,最重要的是到底 怎麼用 。

這種奢侈的理想主義,給團隊帶來了巨大的壓力。

2014 年的時候,在大家還在聊 O2O 時,馬雲在硅谷成立了 iDST ( 數據科學與技術研究院 ) 。並且花重金挖人,從漆遠到金榕、司羅,再到任小楓。

最開始, iDST 野心勃勃地承接了建立超大規模 GPU 機器學習集羣、機器學習平臺等任務。

但即便有期望在前,在殘酷的競爭環境和體制之中,理想主義的存在也是奢侈和艱難的。

僅一年時間,因爲研究商業化等原因,人員被打散放入各種實戰業務部門裏:漆遠去了螞蟻金服,而金榕調入淘寶天貓,語音團隊併入阿里雲。

直到 2017 年,阿里巴巴啓動了 NASA 計劃,要面向未來 20 年組建強大的獨立研發部門。再次將 iDST 和 AI Lab 等核心實驗室合併爲一個實體組織,起名達摩院。

阿里到底在這上面投入有多少,有一張圖或許可以說明一二。達摩院成立前夜,一張馬雲宴請科學家的照片廣爲流傳。

在一堆高密度人才架構中,過於前沿的技術,誰也不知道到底行不行,但是就是在這裏,奠定了阿里 AI 的人才和技術基礎。

就在他們放棄把 M6 大張旗鼓公之於衆的 27 天之後,ChatGPT 上線引爆了全世界,人們迅速忘記了 M6 。

實際看到 ChatGPT 之後,達摩院也不得不承認自己確實和對方有着不小的差距。事實上,當時全世界都和 OpenAI 有差距。

從某些方面來說,這樣的差距不可避免。

M6 採用的是 BERT 架構,將解碼器和編碼器集成在同一框架中,而 OpenAI 走是單向模型的路線,只做解碼器的部分。 簡單來說,就是 ChatGPT 只能從左往右或從右往左地讀一行字,而 BERT 是同時從兩邊處理一句話,也可以在未標註過的數據上學習。

從理解速度上來說, M6 所採用的方向要高效得多。但固執的 ChatGPT 靠着猛堆參數量,做到大力出奇跡,突破了單向模型理解能力差的瓶頸。非主流的方向性選擇,孤注一擲或許一鳴驚人,多數一敗塗地。

面臨路線更改的局面,達摩院只給了自己 4 個多月的時間,去追上 OpenAI 。

高壓和焦慮,反而讓團隊內部上下擰成一股繩。 不僅如此,彼時達摩院 2000 多人裏 ,有一半都是從事 AI 相關研究。外界戲稱達摩院爲少林派護法,其人才儲備是兵家搶人必爭之地。

最終,趕在 2023 年 4 月中旬,阿里用通義千問這個名字將大模型上線邀測,也是當時國內第二個上線的大模型。

2022 年的雲棲大會上,達摩院雖然沒有公佈 M6 ,卻成立了一個社區 —— 魔搭社區 ,這是國內首個 AI 模型開源社區。

這成爲了通義大模型道路上最重要的一步。當時達摩院把手頭上三四百個模型全部都對外開源了。此後 Qwen 的每一代模型,不管投入了多少資源,都會第一時間在魔搭上主動開源開放。

這並不是常見的事。事實上,在 DeepSeek 出現以前,開閉源一直都是業內爭論不休的話題。即使開源更可能降低研發和應用的門檻,便於開發者快速定製 AI 解決方案,更接近於實現 “ AI 普惠 ” ,但因爲商業化困難,閉源流派一度佔了上風。

但,慷慨的選擇,給通義帶來可觀的 “ 收益 ” 。 “ 通義千問剛上線時,與頭部閉源模型還有相當一段的距離,在開源之後快速地就追上了, ” 一位接近魔搭社區的人士提到。全世界的開發者都同步在使用和反饋模型的情況,直接助推了 Qwen 模型的更迭。

到今年, Qwen 已經徹底超過 Llama 成爲全球最大的 AI 大模型家族。

全球最大的模型開源社區 Hugging Face 上,有開發工程師形容通義是 “ 最卷 ” 的模型。差評君簡單地梳理了通義團隊的發佈日程,發現基本每隔兩個月就會有一個大更新。

2024 年, 2 月 Qwen 1.5 更新, 3 月更新視覺大模型 qwen-vl Plus 和 Max 。 6 月份上線 Qwen2 , 3 個月後,又發佈了 Qwen2.5 ,並且覆蓋了從 0.5B 到 110B 不等的全尺寸模型,自此性能超越了 Llama3 。 2025 年至今,又已經出了數款新模型。

高密度的更新之下,通義團隊們也再沒有因同行的變動而慌亂過。

2024 年 3 月 18 號, Kimi 長下文突破 200 萬,通義在 5 天后, 按自己的節奏宣佈了能處理 1000 萬字的長文本 新模型 。 DeepSeek 帶火了深度思考推理後,通義團隊已經不再焦慮着急切跟進,而是在沉澱後推出兼具 “ 思考 ” 和 “ 快速回答 ” 能力的 Qwen3.

值得一提的是,Qwen 3 旗艦模型架構爲 MoE( 混合專家模型 ),而當年 M6 正是業界成熟使用該架構的 “ 先驅 ” 模型之一。

處理任務時,只調用部分 專家 來處理任務,所以每次激活參數量不大,只有 22 B ,使其速度快,能耗小。所以 Qwen3 的參數量有 235B ,成本卻可以做到 DeepSeek-R1 的三分之一。

Qwen3 的發佈,證明了通義千問已經完全躋身全球最頂尖大模型梯隊。黃仁勳在最新的財報電話會上,點名 DeepSeek 和千問是開源 AI 模型裏最好的。

當年種下的種子,一直在影響和幫助通義續寫阿里的 AI 故事。

Qwen3 後訓練圖示

2025 年 2 月的一場財報電話會,徹底展現了阿里在 AI 上的野心。

2025 財年第三季度財報發佈後,阿里巴巴美股上漲 8% ,港股大漲 10% ,其中,白紙黑字的數據把阿里雲推了出來。阿里的雲智能集團收入 317.42 億元 ( 43.49 億美元 ) ,同比增長 13% ,利潤同比增長 33% 。

數字的背後,是雲服務成爲 “ AI 時代的電力基建 ” 的業務邏輯被市場所認可。

有業內人士認爲,未來可 能有 90% 的 token 都在 AI 公共雲上進行。而阿里雲上有 500 萬的客戶,是全球第四、亞洲第一的雲。

今年 4 月 10 日,吳泳銘曾對內提出了一個目標。雖無法獲知具體數字, 但接近阿里雲的人士透露, 如果 按照吳泳銘制定的計劃推進,阿里雲以後可能會佔到阿里巴巴總收入的 20-25% ,如果樂觀來估計甚至可能達到 30% 以上。

這意味着阿里雲將會成爲業務利潤上挑大旗的存在之一。因爲今年亞馬遜雲科技業務的收入是 1076 億美金,佔總收入的 16.9% 。但它卻貢獻了 58% 的利潤。

在那次財報會上,吳泳銘還提出在 AI 基建上的投入超過過去十年的總和,這裏巨大的想象空間,讓所有人都無法再忽視它。

在這之前,阿里的核心業務就已經開啓了一場 升級改造 ,全面進行 AI 化轉型。據傳, “ AI 增量指標 ” 也被納入到相關員工的考覈體系中, 2025 年的績效將通過如何利用 AI 促進增長來評估。

而在各種 AI 化的 升級 中,夸克是最出乎大家意料的一個業務。

最顯而易見的是夸克成爲了阿里 AI 旗艦應用。阿里巴巴智能信息事業羣總裁吳嘉,直接向吳泳銘彙報工作。

在阿里財報會上,吳泳銘又再次點名夸克在 C 端積累的用戶基礎。

一時間,夸克這個低調的應用,成爲了阿里面向 C 端的排頭兵。

其產品能力也在迅速迭代。去年 7 月第一次提出 “ 超級搜索框 ” 的初步構想,今年年初,升級成爲 “ 2 億人的 AI 全能助手 ” 。在 3 月份上線 “ AI 超級框 ” 後,又在近期發佈 “ 深度思考 ” 能力,對夸克的要求進一步明確爲用 Agent 產品服務用戶。

但聚光燈的亮度,是由炙熱的溫度作爲代價的。

對其他 AI 原生應用或者本就功能繁雜的應用來說,這樣的變動並不稀奇。但靠搜索業務起家的夸克,行事風格一直是 謹慎和剋制 。

夸克的團隊從建立到現在,人員流動性遠低於其他項目團隊,在過去幾年的阿里成爲一個 “ 異類 ” 。

在業內人士看來 “ 做搜索是一個需要耐心的重活 ” 。只是一個搜索排名的變動,比如要先顯示哪條檢索結果,用戶端都會有非常大的感知。

同時,夸克年輕用戶佔比超過 50% ,面對愛表達的羣體,任何的變動都變得更加謹小慎微。

按以往的節奏來說,夸克的一個小功能,從用戶調研、清洗數據,再到最後的產品打磨, 需要最少半年至一年的時間。

夸克對功能新增也一直有非常高的准入門檻,一些不符合 “ 調性 ” 、打擾用戶的功能,絕不允許加入。 比如彈窗簽到、轉盤得金幣這些爲了保持用戶黏性的常見功能。甚至連 icon 的顏色和擺放位置,都需再三斟酌。

被推到臺前後,壓力使得夸克內部的發條被繃緊。

“ 我們處在一個高壓的產業環境裏。內部人的壓力都比較直接,對產品服務能力的要求也會更高。 ” 一位接近夸克的人士 坦言道。

ChatGPT 發佈後,夸克投入了大量工程師開發自研大模型,並和通義等團隊保持緊密溝通。

除了基礎模型之外,應用功能也必須保持高速的更新頻率,把新技術成果迅速導入到應用層。 僅是 2024 年,夸克就上線和升級了 AI 寫作、 AI 搜索、 AI 解題大師等一系列全場景的 AI 能力。 今年又先後加碼了深度搜索和 AI 相機等能力。

面對阿里如此大規模的 AI 革新,帶來的一個必然問題是: 真實 “ 藥效 ” 到底有多少?用戶是否真的能夠消化?

在這個問題上,離錢最近的商家們,或許是感觸最明顯的。 “ 你都不用懷疑,因爲 AI 能做到的獲客成本,人是辦不到的,” 一位年輕的外貿老闆劉世奇對我說。

他所說的獲客成本,指的是運營在投流推廣時,捕捉單個客戶的營銷費用。

一般來說,爲了降低營銷成本,需要拆分客戶畫像,對比數據和優化關鍵詞。作爲獲客的關鍵一環,頭部企業甚至會聘請職業的運營投手專家負責。

而這個崗位劉世奇一直都是自己親自上手。專做阿里國際站美國市場的他,只靠 6 個人的團隊,就做到了年銷售額 3000 萬。

劉世奇在美國賣爆的拖鞋

過去,爲了倒時差蹲守客戶,在公司等到早上 6 點多才回家是家常便飯。

但現在,他回家晚了更可能的原因是和員工打遊戲開黑。

他幫我算了一筆賬,同行 TOP 10 的商家手動推廣後,獲取單個人的商業成本是 127 元,而他們 AI 全託管投放後,一個客戶只要 35 塊。

所以,即便現在已經有財力招聘運營投手,運營崗也不在他們今年的團隊擴張計劃裏。

“ 因爲不太需要了 ” ,這個年輕的老闆對 AI 的信任度非常高。運營所需要負責的詢盤、選品、獲客營銷已經全部交給 AI ,人工需要 30 分鐘上一個的產品鏈接, AI 只要 1-2 分鐘。

在實際的省錢和省力面前,只用工具也就成了商家們自發的行爲。阿里國際站一位內部人士和我們透露說,現在國際站外貿商家中,一半以上都已經在使用他們的 AI 工具,每天大概穩定有 10 萬商家。

當我們回過頭來梳理整條線,會發現阿里的爆發,並非一夜之間的轉向。這更像是一場長期的烏托邦式豪賭。

阿里內部人士總結稱, “ 這是時間、空間、人員的冗餘,加上一點點的自由無用。”

或許大的企業存在着組織摩擦的慣性,但也可能只有大企業能夠在變革中保持前列的競爭力。達摩院構築起的技術飛地,在經歷了持續高的人力支出,業務變動,技術路線摩擦後,終究開枝散葉。

2007 年的 9 月 28 號,在寧波一個逼仄的封閉會議室裏,馬雲給了當時的團隊拋了兩個問題。第一個是算力,第二個是數據。

在內部員工們看來,這纔是阿里巴巴走向科技公司的起點。 兩年後,爲了解決算力問題,阿里雲成立。之後,肩負着 “ 數據驅動未來使命 ” 的 iDST 和達摩院成立。

儘管這些理想主義的嘗試,曾讓阿里飽受爭議。可是面對下一次豪賭,阿里依然全力投入。

5 月 6 日,阿里在西溪園區復刻了曾經的湖畔小屋,讓集團重拾 “ 創業 ” 精神。之後,吳泳銘的內部信中,又一次提到要放下過去成績,迴歸創業者心態,開啓一段全新徵程。

圍繞 AI 、雲等核心業務的硬件與資源投入,再次被敲定爲這場 “ 飽和式投入 ” 戰役裏的重點之一。

至於這次全力投入是否能夠成功,阿里並不焦慮。

因爲阿里從來不是一個技術的匆忙上馬。它真正想建立的是一種以算力爲底層,以共享科技和應用爲頂層架構的生態系統。正是這種深層次的戰略定位和技術基因,使得阿里能夠在 AI 浪潮的持續迭代中,始終穩坐牌桌。即使在技術更替出現短期的動盪中,它也從未迷失 —— 因爲充足的儲備,能幫阿里人迅速找準方向,再次前進。

某個技術的爆發,只是輕輕推了這艘巨輪一把。

撰文:四大 & rick

編輯:江江 & rick & 大餅

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10