文|数据猿
“友商,你们拿什么和我比?”
“友商,你们拿什么和我比?”这不是哪家公司的狂妄宣言,而是当前AI战场最真实的写照。IDC预测,2024年,全球各组织将在人工智能上投入2350亿美元,2028年这⼀数字将增长近三倍,超过6300亿美元。这预示着未来⼏年的复合年增长率(CAGR)将接近30%。开源大模型以其开放、透明、可定制的特性,成为驱动AI加速创新进程的核心引擎,它们让全球的开发者和企业能够以前所未有的速度参与到AI的研发和应用中来。
不过我们也不能简单的认为就是各科技厂商之间的技术比拼,其背后更是各国较量科技实力的无声战场。还记不记得当时DeepSeek爆红引发的各种质疑,当时的外媒报道中充斥着大量对DeepSeek的质疑。今日头条的一篇文章中说“一个去年7月成立的公司,刚刚成立一年半,仅有4人缴纳社保,竟然能开发出全球顶尖的AI大模型,你们信吗?它就是——深度求索,开发了DeepSeek的公司。”
“大佬”的进阶之路
说一千道一万,回到日常生活,Meta的Llama 2以开源之名横扫全球,Qwen系列背靠阿里云势头迅猛,DeepSeek以恐怖的技术指标席卷各大版面成功演绎什么叫“后来居上”。真正的实力面前,从来没有谦让,反而是对技术自信的张狂。很多用户可能会问,“这么多大模型公司,该怎么看谁更厉害呢?”今天,我们就来看看他们到底都看什么!先来整体梳理下这三家公司的发展脚步,大致如下图:
图:DeepSeek、Llama、Qwen三家发展梳理图 来源:数据猿经查找网络资料后制作
1. DeepSeek:后来居上,不是闹着玩的
DeepSeek作为中国AI领域的新兴力量,在开源大模型赛道上展现出了令人瞩目的发展速度和技术实力,其发展时间线清晰且迭代迅速,在技术创新和市场响应上极具敏捷性。据大量新闻报道,今年1月26日晚,游戏科学创始人、CEO冯骥发文,称“DeepSeek,可能是个国运级别的科技成果”。他还表示,如果有一个AI大模型做到了以下任何一条,都是超级了不起的突破,DeepSeek全部同时做到了。
图:冯骥评DeepSeek 来源:微博
DeepSeek的旅程始于2023年,深度求索公司正式成立。随后,在短短一年多的时间里,系列模型经历了多次关键迭代。
·2023年7月:DeepSeek公司正式成立,标志着其在AI大模型赛道的布局。
·2024年1月:DeepSeek发布了首个通用语言模型DeepSeek LLM,开启了技术追赶的序幕。
·2024年5月:DeepSeek-V2发布,总参数达2360亿,采用MoE架构优化,大幅降低成本并开源,迅速引发市场关注。
·2024年9月:DeepSeek-V2.5发布,融合代码生成与对话能力,拓展了多场景应用。
·2024年12月:DeepSeek-V3发布,总参数提升至6710亿,训练成本仅为557.6万美元,性能在多项评测中超越Owen2.5-72B和LLaMA 3.1-405B。
·2025年1月:DeepSeek-R1发布,性能媲美OpenAI,应用全球上线,全球和美国的日活跃用户数增长超110%,登顶苹果应用商店免费下载排行榜。
·2025年1月:DeepSeek-Janus-Pro发布,支持文生图与多模态理解,挑战OpenAI DALL·E和Midjourney。
·2025年2月:DeepSeek应用持续登顶苹果中国和美国应用商店,在超过140个国家中排行第一位。
图:DeepSeek模型迭代与发展历史沿革
来源:梳理网络信息及国信证券《电子AI+系列专题报告(六)——DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求》后制作
2. Llama:开源世界的“鲶鱼”
自2023年2月首次亮相以来,Meta的Llama系列大语言模型(LLM)在AI领域掀起了巨大的波澜。从最初的Llama-1到如今即将发布的Llama-4,这一系列模型不仅在技术上不断突破,更在开源社区和商业应用中展现出强大的影响力。
·2023年2月24日:Meta首次推出Llama-1,包含7B、13B、30B和65B四个参数版本。Llama-1凭借其出色的性能和开源特性,迅速成为开源社区的焦点。然而,由于开源协议限制,该版本不可免费商用。
·2023年7月:Meta发布Llama-2,进一步扩充了模型规模至70B,并引入了分组查询注意力机制(GQA),同时将上下文长度翻倍至4096。Llama-2不仅性能更强,还首次实现了免费可商用。
·2023年8月:基于Llama-2,Meta发布了专注于代码生成的Code-Llama,进一步拓展了Llama的应用场景。
·2024年4月:Llama-3正式发布,包含8B和70B两个版本,并支持8K长文本输入。该版本在多个基准测试中表现优异,超越了同期的多个先进模型。
·2024年7月:Llama-3.1发布,推出了4050亿参数的超大型模型,并将上下文长度提升至128K tokens。
·2024年12月:Llama-3.3发布,仅70亿参数的模型在性能上比肩Llama-3.1的4050亿参数版本,同时大幅降低了推理和部署成本。
·2025年4月:Llama-4发布多次推迟,据新浪财经,关键原因是技术基准测试未达内部预期,如推理和数学任务有短板,模拟人类语音对话不及OpenAI。
3. Qwen:阿里云的“生态王牌”
Qwen(通义千问)是阿里巴巴达摩院研发的大语言模型系列。其命名源自中文“通义千问”,寓意着致力于通过技术回答人类的各种问题。
·2023 年 4 月:通义千问上线并邀请用户测试体验,是国内最早一批类ChatGPT大模型产品。
·2023 年 6 月:聚焦音视频内容的工作学习AI助手“通义听悟”上线。
·2023 年 7 月:AI绘画创作大模型“通义万相”开启定向邀测。
·2023 年 8 月:通义千问70亿参数模型Qwen-7B开源,阿里巴巴成为国内首个开源自研大模型的大型科技企业。
·2023 年 9 月:通义千问正式向公众开放。
·2023 年 10 月:通义千问升级到2.0版本,参数规模达千亿级。
·2024 年 6 月:Qwen2系列发布,包含0.5B到72B多个尺寸。
·2024 年 9 月:Qwen2.5系列发布,涵盖0.5B到72B多个尺寸。
·2025 年 4 月:Qwen3系列发布,包含0.6B到235B多个尺寸。
图:通义千问对话页面 来源:阿里云
性能PK
Llama副总裁Ahmad AI-Dahle于今年4月6日在社交媒体平台X发布了一张测试图片,并配文“截至今天,Llama4 Maverick提供了一流的性能与成本比,其实验性聊天版本在LMArena上的ELO得分为1417。”这位副总裁还感慨道几年前的Llama还是一个研究项目,真是令人难以置信。
1、ELO评分
让我们来看看他发的这张图表,该图展示了不同语言模型在LMArena平台上的ELO评分与成本之间的关系。ELO评分是什么?它通常用于衡量棋手的水平,这里被用来衡量语言模型的性能,成本则是指运行这些模型所需的费用。图中的每个点代表一个特定的语言模型,横轴表示成本(从$0.00到$100.00),纵轴表示ELO评分(从1200到1425)。
来源:Ahmad Al-Dahle的X账号
我们可以从图片中看到Llama 4 & Maverick 03-26 Experimental和GPT-4.0 (Mar 25) 位于图的右上角,表明它们具有较高的ELO评分和成本,意味着他们在性能上非常出色,但运行成本也相对较高;而DeepSeek V3.1 (Mar 25) 和 DeepSeek RT位于图的中间偏上位置,处于中等偏高的ELO评分和成本,因此,DeepSeek可能在性能和成本之间的平衡比较好。最后,Qwen 2.5 Max和a3-mini (high)位于图的左下角,显示出较低的ELO评分和成本,意思是这类模型可能在性能上不如高成本模型,但运行成本较低,可能更适合预算有限的应用场景。不过,图中也列了一些可能会影响模型性能和成本的假设条件,如分布式推理、特定硬件配置、缓存等。以上测试结果也可能已经受环境影响得到优化。
图:主流大模型信息对比 来源:国信证券《电子AI+系列专题报告(六)——DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求》
2、MMUL/s分数
根据国信证券汇总报告中已测试过的MMUL/s分数,这三大模型均在开源领域处于领先地位,且性能已能与部分闭源模型匹敌:
·Llama3-405B达到了85.2分,性能卓越
·Qwen2-72B更是达到了惊人的86.1分,在开源模型中处于顶尖水平
·DeepSeek-V2-236B也取得了78.8分,在保持大规模的同时兼顾了效率
高MMUL/s分数意味着模型在推理任务上具有更高的效率和更快的响应速度,对实际应用,尤其是需要低延迟和高并发的商业场景至关重要。
在Meta-Llama官网中,我们看到它根据一系列不同语言的通用基准评估了模型性能,测试了编码、推理、知识、视觉理解、多语言和长上下文
图:基准 来源:Llama官网
3、Artificial Analysis发布的“AI智能指数”
4月8日,Artificial Analysis更新了AI智能指数,该指数对目前领先的AI模型进行综合评估,结合了MMLU-Pro、GPQA Diamond、Humanity's Last Exam等七项严苛的基准测试。在此次的结果中,Llama 4系列模型表现尤为抢眼,逼近榜首。
图:Artificial Analysis Intelligence Index 来源:Artificial Analysis的X账号(4月8日)
根据Artificial Analysis的最新数据,Meta的Llama 4 Scout和Llama 4 Maverick模型在智能指数上取得了显著进步。Llama 4 Scout指数从36跃升至43,而Llama 4 Maverick则从49提升至50。
值得注意的是,在最初的评估中,Artificial Analysis发现他们测量的结果与Meta声称的MMLU Pro和GPQA Diamond分数存在差异。进一步实验审查后,他们调整了评估原则,允许Llama 4模型在回答多项选择题时,即使答案格式与预期不同(例如,以“最佳答案是 A”的形式),只要内容正确,也视为有效答案。尽量避免不公平地惩罚那些以不同风格呈现答案但内容正确的模型,进而更准确地反映Llama 4系列的实际能力,这也就促成了Scout和Maverick智能指数的大幅提升。
来源:Artificial Analysis的X账号(4月8日)
☆DeepSeek V3仍领跑,但Llama 4 Maverick效率惊人
尽管DeepSeek V3 (0324) 以53分的成绩仍保持微弱领先,但Llama 4 Maverick(50分)的表现同样令人印象深刻。Maverick在参数效率上展现了巨大优势,即它仅使用了DeepSeek V3大约一半的活动参数(170亿vs370亿),并且总参数量也只有DeepSeek V3的约60%(4020亿vs6710亿)。更难得的是,Maverick还支持图像输入。Llama 4 Maverick可以在更精简的体量下实现接近顶级性能的能力,对那些追求高效部署和资源优化的开发者来说,无疑是吸引力满满呀。【备注:Artificial Analysis强调,所有测试均基于Hugging Face发布的Llama 4权重版本进行,并通过一系列第三方云服务提供商进行了测试,以确保评估的公正性和广泛性。他们特别指出,评估结果不基于Meta提供的实验性聊天调优模型(Llama-4-Maverick-03-26-Experimental),强化评估的独立性。
用户数据对比
DeepSeek的全球表现令人惊艳,根据aitools.xyz在2025年5月发布的“最受欢迎AI工具”榜单,DeepSeek成功位列全球第四名,月访问量达到580,248次,环比增长1.32%。DeepSeek的Web流量增长轨迹更是有说服力,2024年全年DeepSeek的Web总访问量为2140万次,独立访问量545万次;至2025年5月,DeepSeek的Web总访问量飙升至 4.261亿次,独立访问量达到7250万次。惊人的数据表明DeepSeek在不到一年的时间里,其总访问量实现了近20倍的惊人增长,独立访问量也增长了约13倍。进一步看,DeepSeek在全球开源大模型市场的应用份额不断扩大。
图:DeepSeek web流量数据统计 (左:2024年全年,右:2025年5月) 来源:aitools.xyz
再来看Llama,在今年3月时,副总裁Ahmad AI-Dahle发文祝贺Llama下载量超10亿次,根据相关数据,这比2024年12月初报告的6.5亿次下载量有了显著增长,在短短三个月内增长了约53%。
它在2024年全球总访问量达到233.02K,独立访问量为165.72K,相较于此前分别增加了120.59K和77.57K,实现了高达107.26%的同比增长,在大型语言模型市场份额上,从之前的基础增长了0.12%,达到了0.22%。2025年5月,Llama的Web流量轨迹出现了显著的下行趋势。该月总访问量降至15.33K,独立访问量为12.53K,相比此前分别减少了7.66K和7.91K,月环比下降了33.33%。这一骤降也反映在其市场地位上,大型语言模型的市场份额回落至0.14%,下降了0.09%。尽管全球排名略有改善(从2779上升至2669),但美国排名和大型语言模型排名仍在持续下降,这可能预示着在关键市场和核心领域竞争的加剧。
图:Meta Llama流量数据统计(左:2024年全年,右:2025年5月)来源:aitools.xyz
此外,我们还对比了三家在GitHub上的星标数和fork数,这是GitHub上衡量项目受欢迎程度和参与度的两个重要指标。星标数代表了项目受到的关注程度,用户可以通过点击项目页面上的“Star”按钮来为项目添加星标。
来源:GitHub“Meta-Llama”
来源:GitHub“QwenLM”
来源:Github“DeepSeek-ai”
在关注者数量上,DeepSeek以78k遥遥领先,显示出其在多模态理解领域的广泛影响力。Meta Llama和Qwen虽然在关注者数量上不及DeepSeek,但它们的项目同样在各自的领域内具有显著的影响力;在项目受欢迎程度上,DeepSeek的DeepSeek-V3和DeepSeek-R1项目星标数远超其他两个组织,显示出其在社区中的极高人气。Meta Llama的llama和llama3项目也表现出色,其在语言模型领域有强大的吸引力,Qwen的星标数则相对较低;在项目多样性上,DeepSeek的项目更侧重于多模态理解,Meta Llama的项目集中在语言模型的开发和应用。而Qwen则在大语言模型和多模态模型方面有着更多的探索。
整体来看,DeepSeek、Qwen和Llama在GitHub上的表现各有千秋,它们分别在多模态理解、大语言模型和语言模型领域展现了强大的技术实力和创新能力。Llama的成功在于其极致的开放策略和强大的全球社区凝聚力;DeepSeek 则以其惊人的技术迭代速度和在全球用户侧的爆发式增长,迅速崛起为中国乃至全球开源大模型领域的一股重要力量;而Qwen则凭借阿里巴巴的强大生态支持和在国内市场的深厚根基,成为中国AI应用领域的核心引擎。随着技术的不断进步,我们可以预见这些模型持续赋能千行百业,但是不断优化模型架构、提升推理效率的同时,实在应当更加注重用户隐私和伦理问题。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.