誰是開源大模型之王？Llama、DeepSeek還是Qwen？

文｜數據猿

「友商，你們拿什麼和我比？」

「友商，你們拿什麼和我比？」這不是哪家公司的狂妄宣言，而是當前AI戰場最真實的寫照。IDC預測，2024年，全球各組織將在人工智能上投入2350億美元，2028年這⼀數字將增長近三倍，超過6300億美元。這預示着未來⼏年的複合年增長率（CAGR）將接近30%。開源大模型以其開放、透明、可定製的特性，成為驅動AI加速創新進程的核心引擎，它們讓全球的開發者和企業能夠以前所未有的速度參與到AI的研發和應用中來。

不過我們也不能簡單的認為就是各科技廠商之間的技術比拼，其背後更是各國較量科技實力的無聲戰場。還記不記得當時DeepSeek爆紅引發的各種質疑，當時的外媒報道中充斥着大量對DeepSeek的質疑。今日頭條的一篇文章中說「一個去年7月成立的公司，啱啱成立一年半，僅有4人繳納社保，竟然能開發出全球頂尖的AI大模型，你們信嗎？它就是——深度求索，開發了DeepSeek的公司。」

「大佬」的進階之路

說一千道一萬，回到日常生活，Meta的Llama 2以開源之名橫掃全球，Qwen系列背靠阿里雲勢頭迅猛，DeepSeek以恐怖的技術指標席捲各大版面成功演繹什麼叫「後來居上」。真正的實力面前，從來沒有謙讓，反而是對技術自信的張狂。很多用戶可能會問，「這麼多大模型公司，該怎麼看誰更厲害呢？」今天，我們就來看看他們到底都看什麼！先來整體梳理下這三家公司的發展腳步，大致如下圖：

圖：DeepSeek、Llama、Qwen三家發展梳理圖來源：數據猿經查找網絡資料後製作

1. DeepSeek：後來居上，不是鬧着玩的

DeepSeek作為中國AI領域的新興力量，在開源大模型賽道上展現出了令人矚目的發展速度和技術實力，其發展時間線清晰且迭代迅速，在技術創新和市場響應上極具敏捷性。據大量新聞報道，今年1月26日晚，遊戲科學創始人、CEO馮驥發文，稱「DeepSeek，可能是個國運級別的科技成果」。他還表示，如果有一個AI大模型做到了以下任何一條，都是超級了不起的突破，DeepSeek全部同時做到了。

圖：馮驥評DeepSeek 來源：微博

DeepSeek的旅程始於2023年，深度求索公司正式成立。隨後，在短短一年多的時間裏，系列模型經歷了多次關鍵迭代。

·2023年7月：DeepSeek公司正式成立，標誌着其在AI大模型賽道的佈局。

·2024年1月：DeepSeek發布了首個通用語言模型DeepSeek LLM，開啓了技術追趕的序幕。

·2024年5月：DeepSeek-V2發布，總參數達2360億，採用MoE架構優化，大幅降低成本並開源，迅速引發市場關注。

·2024年9月：DeepSeek-V2.5發布，融合代碼生成與對話能力，拓展了多場景應用。

·2024年12月：DeepSeek-V3發布，總參數提升至6710億，訓練成本僅為557.6萬美元，性能在多項評測中超越Owen2.5-72B和LLaMA 3.1-405B。

·2025年1月：DeepSeek-R1發布，性能媲美OpenAI，應用全球上線，全球和美國的日活躍用戶數增長超110%，登頂蘋果應用商店免費下載排行榜。

·2025年1月：DeepSeek-Janus-Pro發布，支持文生圖與多模態理解，挑戰OpenAI DALL·E和Midjourney。

·2025年2月：DeepSeek應用持續登頂蘋果中國和美國應用商店，在超過140個國家中排行第一位。

圖：DeepSeek模型迭代與發展歷史沿革

來源:梳理網絡信息及國信證券《電子AI+系列專題報告（六）——DeepSeek重塑開源大模型生態，AI應用爆發持續推升算力需求》後製作

2. Llama：開源世界的「鯰魚」

自2023年2月首次亮相以來，Meta的Llama系列大語言模型（LLM）在AI領域掀起了巨大的波瀾。從最初的Llama-1到如今即將發布的Llama-4，這一系列模型不僅在技術上不斷突破，更在開源社區和商業應用中展現出強大的影響力。

·2023年2月24日：Meta首次推出Llama-1，包含7B、13B、30B和65B四個參數版本。Llama-1憑藉其出色的性能和開源特性，迅速成為開源社區的焦點。然而，由於開源協議限制，該版本不可免費商用。

·2023年7月：Meta發布Llama-2，進一步擴充了模型規模至70B，並引入了分組查詢注意力機制（GQA），同時將上下文長度翻倍至4096。Llama-2不僅性能更強，還首次實現了免費可商用。

·2023年8月：基於Llama-2，Meta發布了專注於代碼生成的Code-Llama，進一步拓展了Llama的應用場景。

·2024年4月：Llama-3正式發布，包含8B和70B兩個版本，並支持8K長文本輸入。該版本在多個基準測試中表現優異，超越了同期的多個先進模型。

·2024年7月：Llama-3.1發布，推出了4050億參數的超大型模型，並將上下文長度提升至128K tokens。

·2024年12月：Llama-3.3發布，僅70億參數的模型在性能上比肩Llama-3.1的4050億參數版本，同時大幅降低了推理和部署成本。

·2025年4月：Llama-4發布多次推遲，據新浪財經，關鍵原因是技術基準測試未達內部預期，如推理和數學任務有短板，模擬人類語音對話不及OpenAI。

3. Qwen：阿里雲的「生態王牌」

Qwen（通義千問）是阿里巴巴達摩院研發的大語言模型系列。其命名源自中文「通義千問」，寓意着致力於通過技術回答人類的各種問題。

·2023 年 4 月：通義千問上線並邀請用戶測試體驗，是國內最早一批類ChatGPT大模型產品。

·2023 年 6 月：聚焦音視頻內容的工作學習AI助手「通義聽悟」上線。

·2023 年 7 月：AI繪畫創作大模型「通義萬相」開啓定向邀測。

·2023 年 8 月：通義千問70億參數模型Qwen-7B開源，阿里巴巴成為國內首個開源自研大模型的大型科技企業。

·2023 年 9 月：通義千問正式向公衆開放。

·2023 年 10 月：通義千問升級到2.0版本，參數規模達千億級。

·2024 年 6 月：Qwen2系列發布，包含0.5B到72B多個尺寸。

·2024 年 9 月：Qwen2.5系列發布，涵蓋0.5B到72B多個尺寸。

·2025 年 4 月：Qwen3系列發布，包含0.6B到235B多個尺寸。

圖：通義千問對話頁面來源：阿里雲

性能PK

Llama副總裁Ahmad AI-Dahle於今年4月6日在社交媒體平台X發布了一張測試圖片，並配文「截至今天，Llama4 Maverick提供了一流的性能與成本比，其實驗性聊天版本在LMArena上的ELO得分為1417。」這位副總裁還感慨道幾年前的Llama還是一個研究項目，真是令人難以置信。

1、ELO評分

讓我們來看看他發的這張圖表，該圖展示了不同語言模型在LMArena平台上的ELO評分與成本之間的關係。ELO評分是什麼？它通常用於衡量棋手的水平，這裏被用來衡量語言模型的性能，成本則是指運行這些模型所需的費用。圖中的每個點代表一個特定的語言模型，橫軸表示成本（從$0.00到$100.00），縱軸表示ELO評分（從1200到1425）。

來源：Ahmad Al-Dahle的X賬號

我們可以從圖片中看到Llama 4 & Maverick 03-26 Experimental和GPT-4.0 (Mar 25) 位於圖的右上角，表明它們具有較高的ELO評分和成本，意味着他們在性能上非常出色，但運行成本也相對較高；而DeepSeek V3.1 (Mar 25) 和 DeepSeek RT位於圖的中間偏上位置，處於中等偏高的ELO評分和成本，因此，DeepSeek可能在性能和成本之間的平衡比較好。最後，Qwen 2.5 Max和a3-mini (high)位於圖的左下角，顯示出較低的ELO評分和成本，意思是這類模型可能在性能上不如高成本模型，但運行成本較低，可能更適合預算有限的應用場景。不過，圖中也列了一些可能會影響模型性能和成本的假設條件，如分佈式推理、特定硬件配置、緩存等。以上測試結果也可能已經受環境影響得到優化。

圖：主流大模型信息對比來源：國信證券《電子AI+系列專題報告（六）——DeepSeek重塑開源大模型生態，AI應用爆發持續推升算力需求》

2、MMUL/s分數

根據國信證券匯總報告中已測試過的MMUL/s分數，這三大模型均在開源領域處於領先地位，且性能已能與部分閉源模型匹敵：

·Llama3-405B達到了85.2分，性能卓越

·Qwen2-72B更是達到了驚人的86.1分，在開源模型中處於頂尖水平

·DeepSeek-V2-236B也取得了78.8分，在保持大規模的同時兼顧了效率

高MMUL/s分數意味着模型在推理任務上具有更高的效率和更快的響應速度，對實際應用，尤其是需要低延遲和高併發的商業場景至關重要。

在Meta-Llama官網中，我們看到它根據一系列不同語言的通用基準評估了模型性能，測試了編碼、推理、知識、視覺理解、多語言和長上下文

圖：基準來源：Llama官網

3、Artificial Analysis發布的「AI智能指數」

4月8日，Artificial Analysis更新了AI智能指數，該指數對目前領先的AI模型進行綜合評估，結合了MMLU-Pro、GPQA Diamond、Humanity's Last Exam等七項嚴苛的基準測試。在此次的結果中，Llama 4系列模型表現尤為搶眼，逼近榜首。

圖：Artificial Analysis Intelligence Index 來源：Artificial Analysis的X賬號（4月8日）

根據Artificial Analysis的最新數據，Meta的Llama 4 Scout和Llama 4 Maverick模型在智能指數上取得了顯著進步。Llama 4 Scout指數從36躍升至43，而Llama 4 Maverick則從49提升至50。

值得注意的是，在最初的評估中，Artificial Analysis發現他們測量的結果與Meta聲稱的MMLU Pro和GPQA Diamond分數存在差異。進一步實驗審查後，他們調整了評估原則，允許Llama 4模型在回答多項選擇題時，即使答案格式與預期不同（例如，以「最佳答案是 A」的形式），只要內容正確，也視為有效答案。儘量避免不公平地懲罰那些以不同風格呈現答案但內容正確的模型，進而更準確地反映Llama 4系列的實際能力，這也就促成了Scout和Maverick智能指數的大幅提升。

來源：Artificial Analysis的X賬號（4月8日）

☆DeepSeek V3仍領跑，但Llama 4 Maverick效率驚人

儘管DeepSeek V3 (0324) 以53分的成績仍保持微弱領先，但Llama 4 Maverick（50分）的表現同樣令人印象深刻。Maverick在參數效率上展現了巨大優勢，即它僅使用了DeepSeek V3大約一半的活動參數（170億vs370億），並且總參數量也只有DeepSeek V3的約60%（4020億vs6710億）。更難得的是，Maverick還支持圖像輸入。Llama 4 Maverick可以在更精簡的體量下實現接近頂級性能的能力，對那些追求高效部署和資源優化的開發者來說，無疑是吸引力滿滿呀。【備註：Artificial Analysis強調，所有測試均基於Hugging Face發布的Llama 4權重版本進行，並通過一系列第三方雲服務提供商進行了測試，以確保評估的公正性和廣泛性。他們特別指出，評估結果不基於Meta提供的實驗性聊天調優模型（Llama-4-Maverick-03-26-Experimental），強化評估的獨立性。

用戶數據對比

DeepSeek的全球表現令人驚豔，根據aitools.xyz在2025年5月發布的「最受歡迎AI工具」排行榜，DeepSeek成功位列全球第四名，月訪問量達到580,248次，按月增長1.32%。DeepSeek的Web流量增長軌跡更是有說服力，2024年全年DeepSeek的Web總訪問量為2140萬次，獨立訪問量545萬次；至2025年5月，DeepSeek的Web總訪問量飆升至 4.261億次，獨立訪問量達到7250萬次。驚人的數據表明DeepSeek在不到一年的時間裏，其總訪問量實現了近20倍的驚人增長，獨立訪問量也增長了約13倍。進一步看，DeepSeek在全球開源大模型市場的應用份額不斷擴大。

圖：DeepSeek web流量數據統計（左：2024年全年，右：2025年5月）來源：aitools.xyz

再來看Llama，在今年3月時，副總裁Ahmad AI-Dahle發文祝賀Llama下載量超10億次，根據相關數據，這比2024年12月初報告的6.5億次下載量有了顯著增長，在短短三個月內增長了約53%。

它在2024年全球總訪問量達到233.02K，獨立訪問量為165.72K，相較於此前分別增加了120.59K和77.57K，實現了高達107.26%的按年增長，在大型語言模型市場份額上，從之前的基礎增長了0.12%，達到了0.22%。2025年5月，Llama的Web流量軌跡出現了顯著的下行趨勢。該月總訪問量降至15.33K，獨立訪問量為12.53K，相比此前分別減少了7.66K和7.91K，月按月下降了33.33%。這一驟降也反映在其市場地位上，大型語言模型的市場份額回落至0.14%，下降了0.09%。儘管全球排名略有改善（從2779上升至2669），但美國排名和大型語言模型排名仍在持續下降，這可能預示着在關鍵市場和核心領域競爭的加劇。

圖：Meta Llama流量數據統計（左：2024年全年，右：2025年5月）來源：aitools.xyz

此外，我們還對比了三家在GitHub上的星標數和fork數，這是GitHub上衡量項目受歡迎程度和參與度的兩個重要指標。星標數代表了項目受到的關注程度，用戶可以通過點擊項目頁面上的「Star」按鈕來為項目添加星標。

來源：GitHub「Meta-Llama」

來源：GitHub「QwenLM」

來源：Github「DeepSeek-ai」

在關注者數量上，DeepSeek以78k遙遙領先，顯示出其在多模態理解領域的廣泛影響力。Meta Llama和Qwen雖然在關注者數量上不及DeepSeek，但它們的項目同樣在各自的領域內具有顯著的影響力；在項目受歡迎程度上，DeepSeek的DeepSeek-V3和DeepSeek-R1項目星標數遠超其他兩個組織，顯示出其在社區中的極高人氣。Meta Llama的llama和llama3項目也表現出色，其在語言模型領域有強大的吸引力，Qwen的星標數則相對較低；在項目多樣性上，DeepSeek的項目更側重於多模態理解，Meta Llama的項目集中在語言模型的開發和應用。而Qwen則在大語言模型和多模態模型方面有着更多的探索。

整體來看，DeepSeek、Qwen和Llama在GitHub上的表現各有千秋，它們分別在多模態理解、大語言模型和語言模型領域展現了強大的技術實力和創新能力。Llama的成功在於其極致的開放策略和強大的全球社區凝聚力；DeepSeek 則以其驚人的技術迭代速度和在全球用戶側的爆發式增長，迅速崛起為中國乃至全球開源大模型領域的一股重要力量；而Qwen則憑藉阿里巴巴的強大生態支持和在國內市場的深厚根基，成為中國AI應用領域的核心引擎。隨着技術的不斷進步，我們可以預見這些模型持續賦能千行百業，但是不斷優化模型架構、提升推理效率的同時，實在應當更加註重用戶隱私和倫理問題。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

誰是開源大模型之王？Llama、DeepSeek還是Qwen？

熱議股票