千問3.5以小勝大,阿里巴巴的陽謀藏不住了

鈦媒體
02/17

文|TechPulse

作者 | 張帥

編輯|蓋虹達

大模型領域的「春晚」頻率,已經快讓從業者跟不上節奏了。

2月16日除夕夜,阿里巴巴開源全新一代大模型千問Qwen3.5-Plus,性能媲美Gemini 3 Pro,登頂全球最強開源模型,不論從哪個方面,都可以說是給大模型行業的蛇年畫上一個句號。

Qwen3.5-Plus總參數3970億,但實際運行時的激活參數僅為170億,性能就超過了萬億參數的Qwen3-Max模型,算力部署成本降低60%,推理速度提升8倍,更別提還是一個原生多模態模型,Agent能力大幅加強,API價格每百萬Token低至0.8元。

更好、更快,還更省錢了,這當然不是千問獨有的特性,但千問是毫無爭議的標準答案,知道怎麼做和做出來,是兩回事——大模型就是一幫這個星球上最聰明的大腦,在做最複雜的實現。

稍早時間,字節跳動、MiniMax、智譜等國內廠商發布了自己的大模型,GPT-5.3 Codex與Opus 4.6也先後亮相,兩種發布風格其實挺有意思。

在硅谷,OpenAI或Anthropic還習慣於扮演科技時代的預言者,他們的每一次更新都透着一種試圖定義文明走向的宏大敘事感;而在國內,以阿里Qwen為典型代表,更像是一種極其務實且兇猛的工業擴張,滿眼都是怎麼讓AI應用到具體場景。

聊到應用,當然就到了中國企業的舒適區,這也是為何春節AI大戰,衆多應用被推到台前,與以往不同的是,過去是有了模型,摸索能做什麼應用,現在是應用場景的需求反過來去推動模型的發展。

在AI大航海時代,只有那些更聰明的船長,那些能以更低能耗航行更遠距離的船隻,才能最終抵達前人未至的新大陸

變「小」的千問,怎麼還變強了?

過去兩年,硅谷乃至全球的AI共識一直籠罩在Scaling Law的既定路基下,更多的算力、更大的參數、更多的數據,等於更好的大模型。

但這種「大幹快上」的擴張正在撞上兩堵無形的牆,一堵是Transformer架構隨序列長度增加而呈平方級爆炸的計算複雜度,另一堵則是讓無數企業望而卻步的推理成本。

這很容易讓人聯想到CPU時代的安迪-比爾定理(Andy and Bill’ s Law),硬件提升的性能,迅速被更喫資源的軟件消耗殆盡,在大模型時代,架構迭代和算法優化釋放出的算力紅利,被參數量的通脹和上下文長度的堆疊耗殆盡。

如果這件事註定無法避免,那麼千問3.5就讓每一絲算力都能發揮出更大的價值。

傳統的Transformer架構雖然強大,但它在處理超長文本時極其「重」,每多讀一行字,內存和算力的負擔就成倍增加。

為了打破這個僵局,業界曾嘗試過各種路徑,比如稀疏注意力、線性注意力、狀態空間模型等,但往往陷入「性能提升則精度下降」的二律背反,要麼保住效率,犧牲精度;要麼保住性能,成本依舊高昂;要麼提出全新架構,卻難以融入現有大模型體系。

千問3.5走出了一條「大道至簡」的道路,其性能躍升的背後,是對Transformer經典架構的重大創新突破。千問團隊自研的門控技術成果,曾斬獲全球AI頂會2025 NeurIPS最佳論文。

這不是一篇理論性質的論文,該前沿技術已融入到千問3.5創新的混合架構中去,團隊結合線性注意力機制與稀疏混合專家MoE模型架構,實現了397B總參數激活僅17B的極致模型效率。

如果用通俗的話來理解,它並不提前裁剪信息,而是在注意力計算真正發生之前,引入一個可學習的「門控」(Gated Attention),先對信息做一次動態評估,再決定哪些部分用完整算力精算,哪些部分用更低成本處理。

從架構層面看,它還補上了MoE長期存在的一塊短板。過去的MoE雖然已經實現了參數層面的稀疏激活,但注意力計算本身依然是全量執行,真正最重的那部分開銷並沒有被觸動。

Gated Attention則把「是否值得計算」這件事直接前移到了注意力內部,讓注意力本身也具備了可選擇計算路徑的能力。這意味着稀疏化第一次不只是發生在前饋網絡階段,而是深入到了Transformer最核心的計算單元裏。

也正因為如此,它能夠同時做到過去行業很難兼得的三件事:推理更快、成本更低,同時性能上限不受損。

原生多模態,牽一髮而動全身

在當前的大模型賽道上,多模態已經成為新的焦點,但大多數現有方案仍停留在「模態疊羅漢、參數堆積」的老路上,試圖把圖像、文本、視頻、表格等各種模態直接拼在一起,再用海量參數去支撐這種疊加,以求在Benchmark上刷出亮眼成績。

然而,這種方式存在明顯的侷限,智力水平受限,推理效率低下,原因也很簡單,每增加一個模態,計算量和內存需求呈指數級上升,模型的大腦被迫同時激活更多部分,但推理能力卻沒有成比例提升。

千問3.5是千問系列首個原生多模態模型,性能超過上一代旗艦模型——萬億參數的Qwen3-Max,但參數量卻不到其40%,這背後的技術突破,值得深挖。

原生多模態的難點,在於讓模型同時理解不同類型信息、建立模態間邏輯,並高效推理。

文字、圖像、視頻、音頻各自的表達方式差異巨大,要在同一空間中理解它們的關係,本身就是技術挑戰。更棘手的是跨模態對齊,圖像與文字、視頻與字幕、圖表與說明的邏輯對應,如果處理不好,模型就可能「睜眼瞎」。

數據稀缺和訓練成本也是瓶頸。高質量多模態標註難得,訓練中,圖像編碼器、視頻序列處理器和跨模態注意力層讓算力消耗大,梯度易不穩,推理效率低下。

長上下文、多輪推理等任務,更要求模型動態調度注意力與算力,否則消耗呈指數級增長而理解能力提升有限。總之,簡單堆模態或擴參數無法解決這一核心瓶頸。

如前所述,千問3.5的技術創新緊密耦合且相互增強,門控注意力讓模型在處理長文本和多模態信息時能按需分配算力,保持推理效率與智力上限;線性注意力與稀疏MoE架構進一步降低長上下文的計算成本,讓超大模型在實際使用中也能高效運行;原生多模態訓練則為模型張開「眼睛」,讓文字、圖像、視頻等信息在同一個認知空間裏自然融合,同時強化推理、任務規劃和空間理解能力。

這些創新並非孤立存在:高效的計算架構保證了多模態訓練可行,跨模態能力反過來又推動注意力機制的優化,推理效率和認知能力相輔相成。

正因為如此,千問3.5才能在文本理解、視覺分析、視頻理解、Agent執行、代碼生成等多維任務中表現均衡而突出,形成一套完整的、可落地的智能體系。

千問3.5在MMLU-Pro認知能力評測中得分87.8分,超越GPT-5.2;在博士級難題GPQA測評中斬獲88.4分,高於Claude 4.5;在指令遵循IFBench以76.5分刷新所有模型紀錄;而在通用Agent評測BFCL-V4、搜索Agent評測Browsecomp等基準中,千問3.5表現均超越Gemini 3 Pro。

原生多模態訓練,也帶來千問3.5的視覺能力飛躍:在多模態推理(MathVison)、通用視覺問答VQA(RealWorldQA)、文本識別和文件理解(CC_OCR)、空間智能(RefCOCO-avg)、視頻理解(MLVU)等衆多權威評測中,千問3.5均斬獲最佳性能。

大模型時代,阿里的陽謀

技術層面的緊耦合,其實是戰略意志的體現,阿里巴巴的芯片、大模型,雲基礎設施等,最終是要為阿里巴巴的未來價值而服務。

就像雲計算時代決定格局的不是CPU主頻,而是虛擬化技術;移動互聯網時代決定格局的不是帶寬峯值,而是分發效率;到了大模型時代,真正決定應用爆發速度的,也不會是模型規模,更可能是每一次推理被調用的成本。

阿里巴巴比更多人更早更深刻地看到了這一點,自此出發,就能理解阿里巴巴的全盤佈局。

在應用層面,1月15日,千問App發布全球首個消費級AI購物Agent。春節活動期間,全國超過1.3億人第一次體驗AI購物,說了50億次「千問幫我」,千問一躍成為國民級AI助手。在全球首次實現大規模真實世界任務執行和商業化驗證。

作為千問App的基座模型,千問3.5的Agent能力也大幅增強,實現了從Agent框架到Agent應用的新突破,可自主操作手機與電腦,高效完成日常任務,在移動端支持更多主流APP與指令,在PC端可處理更復雜的多步驟操作,如跨應用數據整理、自動化流程執行等,顯著提升操作效率。

同時,千問團隊構建了一個可擴展的Agent異步強化學習框架,端到端可加速3到5倍,並將基於插件的智能體Agent支持擴展至百萬級規模,將進一步打開大模型在工作和生活中幫人辦事的想象空間。

另一方面,阿里不僅持續推出SOTA級模型,同時通過開源開放策略,讓任何人都能免費使用。這使千問迅速成為全球最受歡迎的開源模型,也為創新提供了肥沃土壤,激發了大量新的應用與創意。

目前,千問模型的開源數量超400個,衍生模型數量突破20萬個,下載量突破10億次,遠超美國的Llama,包括李飛飛團隊、愛彼迎等全球公司和機構都在使用千問模型。

規模化必然導致邊際成本的降低,這是阿里雲基礎設施的強項。依託阿里雲與平頭哥自研芯片的支持,千問的推理效率得以進一步提升,更好滿足企業級應用需求。模型、芯片與雲端資源的深度耦合,實現了「1+1+1>3」的協同效應,不僅充分釋放了芯片算力潛力和集羣效率,也顯著提高了模型訓練與推理的整體性能。

例如,真武芯片針對以Qwen3為代表的主流MoE架構模型做了大量優化,可滿足千問大模型對大規模計算的需求。得益於模型、芯片以及雲的協同創新,千問3.5的價格進一步探底,API每百萬Token輸入低至0.8元,是同等性能Gemini-3-pro的1/18。

這樣的策略不僅讓千問在企業端備受歡迎,也讓阿里雲再次進入高速增長期。沙利文數據顯示,千問在中國企業級大模型調用市場中位居第一,併成為阿里雲新增需求的主要驅動力,帶動計算、存儲及數據庫等基礎資源消耗的增長。

根據市場調研機構Omdia數據,2025年第三季度,中國大陸雲基礎設施服務市場規模達到134億美元,按年增長24%,市場已連續第二個季度實現20%以上的按年增長,阿里雲在中國雲基礎設施服務市場的份額則提升至36%,AI相關收入已連續九個季度實現三位數按年增長,繼續保持市場領先地位且優勢進一步擴大。

千問3.5這一輪技術躍遷的價值,更像是阿里巴巴一場早有預期的「陽謀」,不只是把性能做上去,當長上下文、多輪推理、Agent工作流開始變成默認配置時,模型纔會真正變成這個時代的基礎設施,技術與商業在這裏協同,算力與認知在這裏形成閉環。

在大模型時代,阿里玩的是一盤既看得見的技術棋,又佈局深遠的商業棋。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10