超越DeepSeek!阿里Qwen3來了,就這?

雷科技
昨天

今天(4 月 29 日)凌晨,阿里巴巴推出了 4 月壓軸的一款大語言模型——Qwen3 系列。

而在這個月,Meta、字節跳動、OpenAI、Google、百度都在稍早前推出了新的大模型,OpenAI 甚至一次性拿出三款大模型,百度也在這周舉行的 Create 2025 百度 AI 開發者大會上發佈了兩款大模型。

但在這一衆新模型中,阿里還能搞出什麼新意?事實上還真有,除了繼續保持開源路線,Qwen3 系列作爲阿里定位中的旗艦大模型,在模型性能上也有了不小的進步,再次縮小與頂尖大模型之間的能力差。

此外,Qwen3 系列還是一款混合推理模型,甚至官方博文的標題就是《Qwen3:思深,行速》。簡單來說,Qwen3 支持思考模式和非思考模式,而不像 DeepSeek 深度思考下是 R1,關閉深度思考其實是 V3。

圖/雷科技

關於混合推理模型,雷科技在今年 2 月就報道並介紹了首款混合推理模型,以及混合推理的優勢所在,並指出:“混合推理模式”可能會成爲大模型發展的下一個標準配置。

而回到阿里剛剛發佈的 Qwen3 系列,作爲國內首個混合推理模型,也是首個混合推理開源模型,再加上模型性能方面的進步,也難怪 Qwen3 推出僅僅四個小時後,就在全球最大開發者社區 Github 拿到了 1.7 萬個 Star。

問題在於,在模型跑分越來越受爭議的今天,Qwen3 系列實際上真能兌現跑分體現出的能力,以及混合推理模型的優勢嗎?

跑分追上頂級閉源模型,

阿里 Qwen3 成色幾何?

毫無疑問,Qwen3 系列最大的亮點之一就是通過引入混合推理設計,實現了同一模型的“思考模式”與“非思考模式”,阿里這次是把這兩種“腦回路”都塞進了同一個模型裏,還開放給用戶和開發者自由選擇。

非思考模式下,Qwen3 系列會充分發揮快速響應的優勢,更像傳統語言模型的輸出方式——快速直接地生成結果。而在思考模式下,模型則會進行深入地思考和推理,比如比如先分解問題、做一步步的邏輯推導,再得出結論。

圖/雷科技

這種架構並不是第一次被提出,但 Qwen3 系列是國內首個真正落地混合推理並完全開源的模型。

在全球範圍內,除了首先採用這種設計 Claude-3.7-Sonnet,也只有 Google 在 4 月中旬才推出的 Gemini 2.5 Flash 上做出了類似嘗試,包括 OpenAI 儘管早早表明了“混合推理”的目標,但仍在開發中。

不僅如此,Qwen3 系列還是一個多尺寸的系列模型,覆蓋包括 0.6B、1.7B、4B、8B、14B、32B,一共 6 個尺寸的稠密模型,以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 共 2 個適用於複雜任務的 MoE 混合專家模型,並且全部支持 119 種語言和方言。

Qwen3 不只是架構上“動了腦子”,性能表現也確實有料。阿里宣稱,小模型如 Qwen3-4B 的性能已可媲美上一代的 Qwen2.5-72B-Instruct,同時 MoE 模型更是在基準測試上表現出了媲美頂尖閉源模型的能力。

圖/阿里

尤其是參數規模達到 2350 萬億的 Qwen3-235B-A22B,在數學推理基準 AIME25 上,得分達到 81.5,刷新開源模型紀錄;在代碼能力測試 LiveCodeBench 中得分超過 70,超過 Grok-3;在人類偏好評估 ArenaHard 中,得分 95.6,超過 OpenAI o1 和 DeepSeek-R1。

這些進步,在一定程度上也解釋了爲何 Qwen3 系列一經發布就受到社區熱烈歡迎。

另一方面,Qwen3 團隊還強調了 Agent 能力的增強以及對 MCP 的支持,算是順理成章,但目前還沒有看出亮眼的地方。主要可能還是,AI 開發者打造 Agent 的好選擇又多了一個。

不過 Qwen3 系列當然還談不上十全十美。在實際推理表現上,Qwen3-235B-A22B 距離今天的頂級模型還有明顯的差異,實測即便在滿血狀態下,遇到困難問題還是容易陷入“冗長而無用”的推理中,最後的結果也不理想。

比如雷科技在 OpenAI-o3 上手測試中提出的問題,o3 可以條理清晰地回答“父親崩潰的原因”,但 Qwen3-235B-A22B 則遇到了和 DeepSeek-R1 類似的問題——思考太久且不斷重複方向,甚至沒有抓住“女兒是色盲”這一關鍵的可能性。

圖/雷科技

包括在 Hacker News 上,也有網友指出 Qwen3-235B-A22B 面對複雜問題時的表現。

圖/ Hacker News

不過降低一點難度,在經典過河問題上稍作改造來提問 Qwen3-235B-A22B,詢問怎麼把捲心菜、山羊、狼和獅子完整拉過河。儘管採用了窮舉的方式,但還是找到了安全的路徑,關鍵是對規則的理解非常到位。

當然,時間有限我們暫時只是簡單地上手,但也大體能看出 Qwen3 最強版本的“成色”,如果從基準測試的分數來看,最好還是放低一下期待。但放到今天的大模型戰場來看,Qwen3 系列依然稱得上最強開源模型,並且混合推理的設計也給用戶和開發者帶來了更靈活的選擇。

放大鏡下的 Qwen3,

阿里的一次關鍵補強

放在更大的時間尺度上來看,Qwen3 系列的發佈,並不僅僅是一次模型升級這麼簡單,而是可以看作阿里在 AI 戰略上的一次重要補強。

過去兩年裏,阿里在大模型領域的佈局其實並不算慢,通義千問體系逐步完善,開源也走得比較早。但無論是在模型的全球聲量,還是在開源社區的話語權上,始終未能真正站到最前排。

在 4 月爆料 Qwen3 即將發佈(雖然發佈時間推遲了)的報道中,虎嗅還指出,基礎模型團隊在阿里內部最重要的考覈維度是“模型影響力”,高層希望可以在業內成功塑造“最強模型”的心智。

想複製 DeepSeek 的影響力,很難。圖/ X

不過 OpenAI、DeepSeek、Google 以及 Anthropic 等公司接連發布的強力模型,阿里此前更多是追隨者角色,很難形成技術引領的姿態。Qwen3 系列的推出,無疑是一場重要的補強,也在某種程度上緩解了這種局面。

尤其是在開源模型領域,Qwen3 覆蓋了從小參數到大參數、稠密模型到混合專家模型的一整套體系,支持 119 種語言和方言,同時在 Hugging Face、GitHub 等開發者社區迅速獲得了不錯的反響。這不僅擴展了阿里在開源生態中的存在感,也爲更多模型應用、工具鏈建設打下了基礎。

而從商業化的角度來看,Qwen3 系列也直接回應了當前模型商業應用的兩大痛點:推理成本高,以及靈活適配性不足。通過引入 MoE 架構大幅降低推理成本,同時又在推理機制上支持思考與非思考的靈活切換,Qwen3 在推理效率、推理成本之間嘗試找到相對平衡的位置。

對於阿里雲現有的 AI 服務體系,尤其是政企、製造、金融等行業客戶來說,更低的部署門檻和更高的適配靈活性,無疑可以增強阿里在大模型商業化競爭中的籌碼。更重要的是,大模型能力註定是未來 AI 雲競爭的“勝負手”。

圖/阿里

但如果回到更理性的位置來看,Qwen3 系列仍然存在着一些明顯的不足。正如前文所述,它目前仍然是一個純文本語言模型,多模態乃至 QvQ-Max 上的視覺推理能力都尚未同步整合進來。簡言之,真比最強的模型能力,Qwen3 還有不少需要改進和補足的空間。

另一方面,儘管 Qwen3 系列在推理機制上實現了創新,但在真正複雜推理問題中的穩定性和魯棒性,相比 OpenAI、Anthropic 等頂級閉源模型,依然有不小差距。

尤其在需要長鏈條邏輯推理、多輪嚴密推導的任務上,Qwen3 的“思考”模式表現出一定的不穩定性,偶爾出現的推理偏移、冗長不聚焦的問題,也說明了目前的混合推理設計還有打磨的餘地。

總而言之,在這個大模型競爭白熱化的 4 月,Qwen3 的推出確實爲阿里帶來了一次必要且及時的升級。它不僅在性能上與頂尖模型縮小了差距,也在推理機制上探索了新的可能性,同時還有潛力幫助阿里在 AI 的商業化方向補上短板。

可見的是,大模型的競爭還會繼續加劇,性能和成本依舊會是兩條重要“主線”,阿里能否繼續保持節奏,甚至在可以預見的“智能體爆發”中佔據主動,仍然需要更多技術演進和產品落地來檢驗。

不過至少在今天,Qwen3 確實讓阿里不容忽視。

小雷建了幾個粉絲羣,歡迎掃碼加入!

大傢伙一塊聊聊天,分享玩機技巧~

End

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10