誰是開源大模型之王?Llama、DeepSeek還是Qwen?

藍鯨財經
2025/07/18

文|數據猿

「友商,你們拿什麼和我比?」

「友商,你們拿什麼和我比?」這不是哪家公司的狂妄宣言,而是當前AI戰場最真實的寫照。IDC預測,2024年,全球各組織將在人工智能上投入2350億美元,2028年這⼀數字將增長近三倍,超過6300億美元。這預示着未來⼏年的複合年增長率(CAGR)將接近30%。開源大模型以其開放、透明、可定製的特性,成為驅動AI加速創新進程的核心引擎,它們讓全球的開發者和企業能夠以前所未有的速度參與到AI的研發和應用中來。

不過我們也不能簡單的認為就是各科技廠商之間的技術比拼,其背後更是各國較量科技實力的無聲戰場。還記不記得當時DeepSeek爆紅引發的各種質疑,當時的外媒報道中充斥着大量對DeepSeek的質疑。今日頭條的一篇文章中說「一個去年7月成立的公司,啱啱成立一年半,僅有4人繳納社保,竟然能開發出全球頂尖的AI大模型,你們信嗎?它就是——深度求索,開發了DeepSeek的公司。」

「大佬」的進階之路

說一千道一萬,回到日常生活,Meta的Llama 2以開源之名橫掃全球,Qwen系列背靠阿里雲勢頭迅猛,DeepSeek以恐怖的技術指標席捲各大版面成功演繹什麼叫「後來居上」。真正的實力面前,從來沒有謙讓,反而是對技術自信的張狂。很多用戶可能會問,「這麼多大模型公司,該怎麼看誰更厲害呢?」今天,我們就來看看他們到底都看什麼!先來整體梳理下這三家公司的發展腳步,大致如下圖:

圖:DeepSeek、Llama、Qwen三家發展梳理圖 來源:數據猿經查找網絡資料後製作

1. DeepSeek:後來居上,不是鬧着玩的

DeepSeek作為中國AI領域的新興力量,在開源大模型賽道上展現出了令人矚目的發展速度和技術實力,其發展時間線清晰且迭代迅速,在技術創新和市場響應上極具敏捷性。據大量新聞報道,今年1月26日晚,遊戲科學創始人、CEO馮驥發文,稱「DeepSeek,可能是個國運級別的科技成果」。他還表示,如果有一個AI大模型做到了以下任何一條,都是超級了不起的突破,DeepSeek全部同時做到了。

圖:馮驥評DeepSeek  來源:微博

DeepSeek的旅程始於2023年,深度求索公司正式成立。隨後,在短短一年多的時間裏,系列模型經歷了多次關鍵迭代。

·2023年7月:DeepSeek公司正式成立,標誌着其在AI大模型賽道的佈局。

·2024年1月:DeepSeek發布了首個通用語言模型DeepSeek LLM,開啓了技術追趕的序幕。

·2024年5月:DeepSeek-V2發布,總參數達2360億,採用MoE架構優化,大幅降低成本並開源,迅速引發市場關注。

·2024年9月:DeepSeek-V2.5發布,融合代碼生成與對話能力,拓展了多場景應用。

·2024年12月:DeepSeek-V3發布,總參數提升至6710億,訓練成本僅為557.6萬美元,性能在多項評測中超越Owen2.5-72B和LLaMA 3.1-405B。

·2025年1月:DeepSeek-R1發布,性能媲美OpenAI,應用全球上線,全球和美國的日活躍用戶數增長超110%,登頂蘋果應用商店免費下載排行榜。

·2025年1月:DeepSeek-Janus-Pro發布,支持文生圖與多模態理解,挑戰OpenAI DALL·E和Midjourney。

·2025年2月:DeepSeek應用持續登頂蘋果中國和美國應用商店,在超過140個國家中排行第一位。

圖:DeepSeek模型迭代與發展歷史沿革

來源:梳理網絡信息及國信證券《電子AI+系列專題報告(六)——DeepSeek重塑開源大模型生態,AI應用爆發持續推升算力需求》後製作

2. Llama:開源世界的「鯰魚」

自2023年2月首次亮相以來,Meta的Llama系列大語言模型(LLM)在AI領域掀起了巨大的波瀾。從最初的Llama-1到如今即將發布的Llama-4,這一系列模型不僅在技術上不斷突破,更在開源社區和商業應用中展現出強大的影響力。

·2023年2月24日:Meta首次推出Llama-1,包含7B、13B、30B和65B四個參數版本。Llama-1憑藉其出色的性能和開源特性,迅速成為開源社區的焦點。然而,由於開源協議限制,該版本不可免費商用。

·2023年7月:Meta發布Llama-2,進一步擴充了模型規模至70B,並引入了分組查詢注意力機制(GQA),同時將上下文長度翻倍至4096。Llama-2不僅性能更強,還首次實現了免費可商用。

·2023年8月:基於Llama-2,Meta發布了專注於代碼生成的Code-Llama,進一步拓展了Llama的應用場景。

·2024年4月:Llama-3正式發布,包含8B和70B兩個版本,並支持8K長文本輸入。該版本在多個基準測試中表現優異,超越了同期的多個先進模型。

·2024年7月:Llama-3.1發布,推出了4050億參數的超大型模型,並將上下文長度提升至128K tokens。

·2024年12月:Llama-3.3發布,僅70億參數的模型在性能上比肩Llama-3.1的4050億參數版本,同時大幅降低了推理和部署成本。

·2025年4月:Llama-4發布多次推遲,據新浪財經,關鍵原因是技術基準測試未達內部預期,如推理和數學任務有短板,模擬人類語音對話不及OpenAI。

3. Qwen:阿里雲的「生態王牌」

Qwen(通義千問)是阿里巴巴達摩院研發的大語言模型系列。其命名源自中文「通義千問」,寓意着致力於通過技術回答人類的各種問題。

·2023 年 4 月:通義千問上線並邀請用戶測試體驗,是國內最早一批類ChatGPT大模型產品。

·2023 年 6 月:聚焦音視頻內容的工作學習AI助手「通義聽悟」上線。

·2023 年 7 月:AI繪畫創作大模型「通義萬相」開啓定向邀測。

·2023 年 8 月:通義千問70億參數模型Qwen-7B開源,阿里巴巴成為國內首個開源自研大模型的大型科技企業。

·2023 年 9 月:通義千問正式向公衆開放。

·2023 年 10 月:通義千問升級到2.0版本,參數規模達千億級。

·2024 年 6 月:Qwen2系列發布,包含0.5B到72B多個尺寸。

·2024 年 9 月:Qwen2.5系列發布,涵蓋0.5B到72B多個尺寸。

·2025 年 4 月:Qwen3系列發布,包含0.6B到235B多個尺寸。

圖:通義千問對話頁面  來源:阿里雲

性能PK

Llama副總裁Ahmad AI-Dahle於今年4月6日在社交媒體平台X發布了一張測試圖片,並配文「截至今天,Llama4 Maverick提供了一流的性能與成本比,其實驗性聊天版本在LMArena上的ELO得分為1417。」這位副總裁還感慨道幾年前的Llama還是一個研究項目,真是令人難以置信。

1、ELO評分

讓我們來看看他發的這張圖表,該圖展示了不同語言模型在LMArena平台上的ELO評分與成本之間的關係。ELO評分是什麼?它通常用於衡量棋手的水平,這裏被用來衡量語言模型的性能,成本則是指運行這些模型所需的費用。圖中的每個點代表一個特定的語言模型,橫軸表示成本(從$0.00到$100.00),縱軸表示ELO評分(從1200到1425)。

來源:Ahmad Al-Dahle的X賬號

我們可以從圖片中看到Llama 4 & Maverick 03-26 Experimental和GPT-4.0 (Mar 25) 位於圖的右上角,表明它們具有較高的ELO評分和成本,意味着他們在性能上非常出色,但運行成本也相對較高;而DeepSeek V3.1 (Mar 25) 和 DeepSeek RT位於圖的中間偏上位置,處於中等偏高的ELO評分和成本,因此,DeepSeek可能在性能和成本之間的平衡比較好。最後,Qwen 2.5 Max和a3-mini (high)位於圖的左下角,顯示出較低的ELO評分和成本,意思是這類模型可能在性能上不如高成本模型,但運行成本較低,可能更適合預算有限的應用場景。不過,圖中也列了一些可能會影響模型性能和成本的假設條件,如分佈式推理、特定硬件配置、緩存等。以上測試結果也可能已經受環境影響得到優化。

圖:主流大模型信息對比  來源:國信證券《電子AI+系列專題報告(六)——DeepSeek重塑開源大模型生態,AI應用爆發持續推升算力需求》

2、MMUL/s分數

根據國信證券匯總報告中已測試過的MMUL/s分數,這三大模型均在開源領域處於領先地位,且性能已能與部分閉源模型匹敵:

·Llama3-405B達到了85.2分,性能卓越

·Qwen2-72B更是達到了驚人的86.1分,在開源模型中處於頂尖水平

·DeepSeek-V2-236B也取得了78.8分,在保持大規模的同時兼顧了效率

高MMUL/s分數意味着模型在推理任務上具有更高的效率和更快的響應速度,對實際應用,尤其是需要低延遲和高併發的商業場景至關重要。

在Meta-Llama官網中,我們看到它根據一系列不同語言的通用基準評估了模型性能,測試了編碼、推理、知識、視覺理解、多語言和長上下文

圖:基準  來源:Llama官網

3、Artificial Analysis發布的「AI智能指數」

4月8日,Artificial Analysis更新了AI智能指數,該指數對目前領先的AI模型進行綜合評估,結合了MMLU-Pro、GPQA Diamond、Humanity's Last Exam等七項嚴苛的基準測試。在此次的結果中,Llama 4系列模型表現尤為搶眼,逼近榜首。

圖:Artificial Analysis Intelligence Index  來源:Artificial Analysis的X賬號(4月8日)

根據Artificial Analysis的最新數據,Meta的Llama 4 Scout和Llama 4 Maverick模型在智能指數上取得了顯著進步。Llama 4 Scout指數從36躍升至43,而Llama 4 Maverick則從49提升至50。

值得注意的是,在最初的評估中,Artificial Analysis發現他們測量的結果與Meta聲稱的MMLU Pro和GPQA Diamond分數存在差異。進一步實驗審查後,他們調整了評估原則,允許Llama 4模型在回答多項選擇題時,即使答案格式與預期不同(例如,以「最佳答案是 A」的形式),只要內容正確,也視為有效答案。儘量避免不公平地懲罰那些以不同風格呈現答案但內容正確的模型,進而更準確地反映Llama 4系列的實際能力,這也就促成了Scout和Maverick智能指數的大幅提升。

來源:Artificial Analysis的X賬號(4月8日)

☆DeepSeek V3仍領跑,但Llama 4 Maverick效率驚人

儘管DeepSeek V3 (0324) 以53分的成績仍保持微弱領先,但Llama 4 Maverick(50分)的表現同樣令人印象深刻。Maverick在參數效率上展現了巨大優勢,即它僅使用了DeepSeek V3大約一半的活動參數(170億vs370億),並且總參數量也只有DeepSeek V3的約60%(4020億vs6710億)。更難得的是,Maverick還支持圖像輸入。Llama 4 Maverick可以在更精簡的體量下實現接近頂級性能的能力,對那些追求高效部署和資源優化的開發者來說,無疑是吸引力滿滿呀。【備註:Artificial Analysis強調,所有測試均基於Hugging Face發布的Llama 4權重版本進行,並通過一系列第三方雲服務提供商進行了測試,以確保評估的公正性和廣泛性。他們特別指出,評估結果不基於Meta提供的實驗性聊天調優模型(Llama-4-Maverick-03-26-Experimental),強化評估的獨立性。

用戶數據對比

DeepSeek的全球表現令人驚豔,根據aitools.xyz在2025年5月發布的「最受歡迎AI工具」排行榜,DeepSeek成功位列全球第四名,月訪問量達到580,248次,按月增長1.32%。DeepSeek的Web流量增長軌跡更是有說服力,2024年全年DeepSeek的Web總訪問量為2140萬次,獨立訪問量545萬次;至2025年5月,DeepSeek的Web總訪問量飆升至 4.261億次,獨立訪問量達到7250萬次。驚人的數據表明DeepSeek在不到一年的時間裏,其總訪問量實現了近20倍的驚人增長,獨立訪問量也增長了約13倍。進一步看,DeepSeek在全球開源大模型市場的應用份額不斷擴大。

圖:DeepSeek web流量數據統計 (左:2024年全年,右:2025年5月) 來源:aitools.xyz

再來看Llama,在今年3月時,副總裁Ahmad AI-Dahle發文祝賀Llama下載量超10億次,根據相關數據,這比2024年12月初報告的6.5億次下載量有了顯著增長,在短短三個月內增長了約53%。

它在2024年全球總訪問量達到233.02K,獨立訪問量為165.72K,相較於此前分別增加了120.59K和77.57K,實現了高達107.26%的按年增長,在大型語言模型市場份額上,從之前的基礎增長了0.12%,達到了0.22%。2025年5月,Llama的Web流量軌跡出現了顯著的下行趨勢。該月總訪問量降至15.33K,獨立訪問量為12.53K,相比此前分別減少了7.66K和7.91K,月按月下降了33.33%。這一驟降也反映在其市場地位上,大型語言模型的市場份額回落至0.14%,下降了0.09%。儘管全球排名略有改善(從2779上升至2669),但美國排名和大型語言模型排名仍在持續下降,這可能預示着在關鍵市場和核心領域競爭的加劇。

圖:Meta Llama流量數據統計(左:2024年全年,右:2025年5月)來源:aitools.xyz

此外,我們還對比了三家在GitHub上的星標數和fork數,這是GitHub上衡量項目受歡迎程度和參與度的兩個重要指標。星標數代表了項目受到的關注程度,用戶可以通過點擊項目頁面上的「Star」按鈕來為項目添加星標。

來源:GitHub「Meta-Llama」

來源:GitHub「QwenLM」

來源:Github「DeepSeek-ai」

在關注者數量上,DeepSeek以78k遙遙領先,顯示出其在多模態理解領域的廣泛影響力。Meta Llama和Qwen雖然在關注者數量上不及DeepSeek,但它們的項目同樣在各自的領域內具有顯著的影響力;在項目受歡迎程度上,DeepSeek的DeepSeek-V3和DeepSeek-R1項目星標數遠超其他兩個組織,顯示出其在社區中的極高人氣。Meta Llama的llama和llama3項目也表現出色,其在語言模型領域有強大的吸引力,Qwen的星標數則相對較低;在項目多樣性上,DeepSeek的項目更側重於多模態理解,Meta Llama的項目集中在語言模型的開發和應用。而Qwen則在大語言模型和多模態模型方面有着更多的探索。

整體來看,DeepSeek、Qwen和Llama在GitHub上的表現各有千秋,它們分別在多模態理解、大語言模型和語言模型領域展現了強大的技術實力和創新能力。Llama的成功在於其極致的開放策略和強大的全球社區凝聚力;DeepSeek 則以其驚人的技術迭代速度和在全球用戶側的爆發式增長,迅速崛起為中國乃至全球開源大模型領域的一股重要力量;而Qwen則憑藉阿里巴巴的強大生態支持和在國內市場的深厚根基,成為中國AI應用領域的核心引擎。隨着技術的不斷進步,我們可以預見這些模型持續賦能千行百業,但是不斷優化模型架構、提升推理效率的同時,實在應當更加註重用戶隱私和倫理問題。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10