美团大模型来了!开源“长猫”,性能追平DeepSeek V3.1,同样主打“算力节省”

华尔街见闻
Aug 31, 2025

刚刚,美团开源了他们的龙猫大模型LongCat-Flash。

一个拥有5600亿参数的混合专家(MoE)模型。

它不仅在性能上追求卓越,更通过一系列架构和训练上的创新,实现了惊人的计算效率和高级的Agent能力。

LongCat-Flash在保证强大能力的同时,将计算资源用在“刀刃”上。

它并非在处理每个任务时都激活全部5600亿参数,而是通过精巧的设计,实现了动态的资源分配。

LongCat-Flash最具创新性的设计之一是 “零计算”专家机制 (Zero-computation Experts) 

模型可以智能地判断输入内容中不同部分的重要性,并将计算量较小的任务(例如常见的词语、标点符号)分配给一个特殊的“零计算”专家。

该专家不进行实际的复杂运算,直接返回输入,从而极大地节省了算力。

得益于此,模型在处理每个词元(token)时,仅需动态激活186亿至313亿的参数(平均约270亿),实现了性能与效率的完美平衡。

在大规模MoE模型中,不同“专家”模块之间的通信延迟往往是性能瓶颈。

为此龙猫大模型引入了快捷连接混合专家模型 (Shortcut-connected MoE, ScMoE) 

ScMoE架构通过引入一个快捷连接,有效地扩大了计算和通信的重叠窗口,显著提升了训练和推理的吞吐量,让模型的响应速度更快。

为了让模型不仅能“聊天”,更能成为能解决复杂任务的“智能代理”,LongCat-Flash经历了一个精心设计的 为Agent而生的多阶段训练流程。

该流程包括大规模预训练、针对性地提升推理和代码能力的中期训练,以及专注于对话和工具使用能力的后训练。

这种设计使其在执行需要调用工具、与环境交互的复杂任务时表现出色。

一个有趣且值得关注的细节是,在官方的技术报告中,强调了LongCat-Flash是在一个包含数万个加速器(tens of thousands of accelerators)的大规模集群上完成训练的。

这个用词非常严谨。

在当前AI领域,虽然大家通常会立刻联想到NVIDIA的GPU,但“加速器”是一个更广泛的概念,它可以包括Google的TPU、华为的升腾(Ascend)或其他专为AI计算设计的芯片。

官方选择使用这个词汇,而没有明确指出是“GPU”,这为硬件的具体来源留下了一定的想象空间,也体现了其在技术陈述上的精确性。

无论具体是哪种硬件,在如此庞大的集群上,于短短30天内完成超过20万亿词元的训练量,都足以证明其背后基础设施的强大与工程优化的卓越。

LongCat-Flash的工程优化成果最终体现在了用户可感知的性能和成本上:

极高的推理速度 :推理速度超过100词元/秒(TPS)。

极低的运营成本 :每处理一百万输出词元的成本仅为0.7美元。

强大的综合能力 :支持128k的长文本上下文,并在代码、推理和工具调用等多个方面展现出与业界领先模型相媲美的竞争力。

为了更直观地展示 LongCat-Flash 的实力,我们来看一下它与业界其他顶尖模型的详细评估对比。

美团的 LongCat-Flash 模型在各项基准测试中展现出了非常强劲且极具竞争力的性能。

它不仅在多个方面与业界顶尖的开源模型(如 DeepSeek V3.1, Qwen3)旗鼓相当,甚至在某些特定能力上实现了超越。

通用领域能力 (General Domains) 在衡量模型通用知识和推理能力的测试中,LongCat-Flash 表现稳定且出色。

MMLU / MMLU-Pro :

这是衡量模型综合知识水平的核心指标。

LongCat-Flash 的得分(89.71 / 82.68)与 DeepSeek V3.1、Qwen3 MoE 和 Kimi-K2 处于同一梯队,证明了其扎实的基础知识和推理能力。

ArenaHard-V2 :

这个基准更侧重于模型作为聊天助手的“体感”和处理复杂指令的能力。LongCat-Flash 在此项得分 86.50 ,超过了 DeepSeek V3.1,与 Qwen3 MoE(88.20)非常接近,这说明它的对话和推理能力非常优秀。

中文能力 (CEval / CMMLU) :

作为中文领域的权威测试,LongCat-Flash 在 CEval 上表现优异(90.44),在 CMMLU 上也保持了不错的水平,证明其对中文语言有很好的支持。

指令遵循(Instruction Following)这是 LongCat-Flash 最突出的亮点。

技术报告中提到,模型为“Agent”能力进行了专门的多阶段训练,而评估结果也印证了这一点。

IFEval & COLLIE :

这两个基准专门评估模型理解并执行复杂、多步骤指令的能力。

在 IFEval 上,LongCat-Flash 的得分(89.65)名列前茅,超越了 DeepSeek V3.1,与 Kimi-K2 和 Qwen3 MoE 并驾齐驱。

在 COLLIE 测试中,LongCat-Flash 取得了 57.10 的高分, 在所有参与对比的模型中排名第一 。

这强有力地证明了它在执行需要调用工具、与环境交互的复杂“智能代理”(Agent)任务方面的卓越能力。 

目前,LongCat-Flash模型已经发布在Hugging Face和Githiub社区,并遵循MIT许可协议。

全球学术界和产业界的研究者、开发者都可以自由地使用和探索这个强大的模型,共同推动AI技术的发展。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10