美团王兴狂卷大模型!开源561B“全能”龙猫模型,上线首款AI通用助手App

智东西
Yesterday

“首个全模态、端到端、大参数量高效推理于一体的开源大模型”。

作者 |  程茜

编辑 |  李水青

智东西11月3日消息,今天,美团正式开源全模态模型LongCat-Flash-Omni,模型总参数量5600亿,激活参数量270亿。美团官方博客称,LongCat-Flash-Omni是业界首个实现全模态覆盖、端到端架构、大参数量高效推理于一体的开源大语言模型

LongCat-Flash-Omni中的“Omni”译为“全能”,其在全模态基准测试中达到开源SOTA,同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中均有明显优势,实现“全模态不降智”。

LongCat-Flash-Omni基于LongCat-Flash构建,后者采用了高性能的Shortcut连接的混合专家(MoE)架构,并实现了零计算专家,LongCat-Flash-Omni集成了高效的多模态感知和语音重建模块,支持128K tokens上下文窗口及超8分钟音视频交互

在预训练阶段,研究人员收集了包含超过2.5万亿个词元的大规模、多样化的多模态语料库用于预训练,同时采用渐进式训练策略,逐步从简单的序列建模任务过渡到更复杂的序列建模任务。

这是9月1日以来,美团正式发布LongCat-Flash系列后的第三款模型,此前其已开源LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本。

值得一提的是,今天美团LongCat官方App开启公测,目前支持联网搜索,还可以发起语音通话,视频通话功能后续上线。LongCat-Flash-Omni目前可以在网页版和App端体验音频交互功能。

▲LongCat官方App首页(左)、LongCat官方App音频通话(右)

据LongCat官方交流群中的官方透露,目前LongCat的文本端模型是longcat-flash,当有多模态输入,比如图片和PDF内容时,会自动调用omni模型。不过智东西体验时发现,在LongCat中上传.jpg格式图片时一直显示上传错误。今天中午,官方还修复了一波安卓端联网搜索相关问题,需要安卓用户卸载重装。

01.

视觉、音频、文本理解生成

拿下多项开源SOTA

研究人员将LongCat-Flash-Omni与各种闭源和开源的多模态模型进行比较,包括视觉理解、音频理解、文本理解和生成、跨模态理解以及视听交互。其将LongCat-Flash-Omni与Gemini-2.5-Pro、GPT4o、Seed-1.6和Qwen3-Omni和视觉语言模型Qwen3-VL、Qwen2.5-VL-72B等进行了比较。

图像转文本方面,总体而言,LongCat-Flash-Omni的性能与Gemini-2.5-Flash相当,并且优于开源的Qwen3-Omni,其优势在多图像任务上尤为显著。

视频转文本方面,LongCat-Flash-Omni在视频转文本任务上取得了最先进的性能。具体而言,它在短视频理解方面显著优于所有对比模型,在长视频任务上,LongCat-Flash-Omni的性能与Gemini-2.5-Pro和Qwen3-VL等模型不相上下。在VideoMME基准测试中,它在全模态模型中取得了最佳性能。

音频能力中,研究人员主要评估了自动语音识别(ASR)、文本转语音(TTS)和语音延续。

基础模型在预训练阶段的ASR和TTS性能结果显示,不同阶段的基础模型在上下文语音延续评估中表现良好,文本输出和语音输出之间的性能差异可以忽略不计。

在语音识别和翻译、音频理解、语音转文本能力中,在所有模型中,LongCat-Flash-Omni的语音识别与翻译测试集S2TT中表现最好最强;LongCat-Flash-Omni在没有视觉输入的情况下,能够有效地作为原生音频理解模型运行;在语音转文本测试集中,LongCat-Flash-Omni在所有基准测试子集中均表现出色,并在多个案例中达到了最先进的水平。

此外,LongCat-Flash-Omni还引入了高级跨模态理解和类人语音交互功能,能够处理跨模态输入。

评估结果显示,LongCat-Flash-Omni的性能优于Gemini-2.5-Flash-non-thinking,并达到了与 Gemini-2.5-Pro-ThinkingBudget128相当的水平

在强调真实世界音视频理解的WorldSense和DailyOmni测试中,LongCat-Flash-Omni超越了其他开源全模态模型。在评估跨模态感知和推理能力的UNO-Bench测试中,LongCat-Flash-Omni在开源全模态模型中也表现出色。

实时音视频交互的评估结果显示,LongCat-Flash-Omni在端到端交互的自然度和流畅度方面得分排名第三。与音视频交互产品相比,LongCat-Flash-Omni的排名低于豆包和GPT-4o,但优于科大讯飞星火和StepFun。

值得注意的是,LongCat-Flash-Omni在开源替代方案中得分比目前先进的开源模型Qwen3-omni高出0.56分

目前,LongCat支持音频通话10分钟,且响应,LongCat就实时生成并进行了讲述。

02.

剑指全模态大模型训练四大挑战

美团提出四大创新技术思路

训练既具备强大的离线多模态理解能力又具备实时音视频交互能力的全模态模型的挑战性在于:

跨模态异构性指的是,不同模态之间存在显著差异,因此需要探索有效的统一表征和融合策略,以实现跨模态的协同作用,确保任何单一模态的性能都不会低于同等规模的单模态对应模态。

统一的离线和流媒体能力,将离线多模态理解与流媒体音视频交互相结合是一项重大挑战,流媒体交互场景需要一些离线处理通常不具备的独特能力,例如感知相对时间、精确同步音视频信息以及高效管理多轮交互上下文。

实现实时音视频交互本身就存在诸多难点,包括需要同时支持流媒体音频和视频输入以及流媒体语音输出,严格的低延迟要求进一步对计算效率提出了严格的限制,从而对模型架构设计和部署基础设施都提出了很高的要求。

训练效率挑战,模型和数据的异构性给分布式策略的设计带来巨大挑战。

为克服第一个挑战,研究人员设计了一个多阶段大规模预训练流程。基于早期文本预训练基础模型,他们逐步将音频和视频数据融入大规模预训练过程,采用均衡的多模态数据混合和有效的早期融合策略,使得该模型在保持强大单模态性能的同时,实现跨模态的深度融合理解。

▲LongCat-Flash-Omni模型架构概览

为了应对平衡离线多模态理解与实时音视频交互的第二个挑战,研究人员引入一种人机协同策略来构建高质量的交互数据,并考虑到长期记忆和多轮对话的处理。此外,其从现有的视觉文本语料库中提取视觉语音问答数据,从而实现自然语音输出,有助于将强大的离线多模态理解能力迁移到交互场景中。

对于第三个挑战,研究人员采用ScMoE架构,并以LongCat-Flash的零计算专家作为大模型骨干。为了处理流式输入,其采用高效的音频和视频编码器进行特征提取,并引入同步分块交错策略以实现实时处理。

对于第四个挑战,研究人员进行了大规模全模态分布式训练,其提出一种模态解耦并行(MDP)策略。该方法能够独立优化大模型、视觉编码器和音频编码器的性能和内存使用情况。

实验结果表明了该策略的有效性,其系统能够保持纯文本训练吞吐量的90%以上

03.

采用五阶段渐进式训练策略

借鉴LongCat-Flash训练基础设施

LongCat-Flash-Omni是一个端到端全模态模型,可以接收多种模态的输入,包括文本、音频、图像、视频及其任意组合,并能够直接从大模型主干网生成语音token。

该模型采用视觉编码器和音频编码器作为多模态感知器,大模型处理多模态输入并生成文本和音频token,音频解码器从大模型生成的语音token中重构波形,从而实现自然的语音交互。其中,音频编码器、视觉编码器和音频解码器均为轻量级组件,每个组件的参数量约为6亿个。

预训练阶段,数据整理方面,研究人员收集了包含超过2.5万亿个词元的大规模、多样化的多模态语料库用于预训练。该预训练语料库由音频数据、通用图像-文本数据、视频数据、OCR、长上下文多模态数据等部分组成。

训练全模态模型最根本的挑战之一在于不同模态间数据分布的显著异质性,面对这一挑战,研究人员采用了一种渐进式训练策略,该策略逐步从简单的序列建模任务过渡到更复杂的序列建模任务。

▲训练策略

研究人员首先进行大规模文本预训练(阶段0),在此基础上引入结构上更接近文本的语音数据,以将声学表征与语言模型的特征空间对齐,并有效地整合副语言信息(阶段1),语音-文本对齐完成后,其引入大规模图像-描述对和视觉-语言交错语料库(阶段2),以实现视觉-语言对齐,从而丰富模型的视觉知识。

▲预训练阶段1示意图

然后,研究人员会引入最复杂的视频数据以实现时空推理(阶段3),同时整合更高质量、更多样化的图像数据集,以增强视觉理解能力。为了进一步支持长上下文推理和多轮交互,其将模型的上下文窗口从8K个词元扩展到128K个词元(阶段4)。

最后,为了减少离散语音词元表示的音频输入的信息损失,他们引入了一个音频编码器对齐阶段(阶段5),使模型能够直接处理连续的音频特征,从而提高下游语音任务的保真度。

在训练后阶段包含两个组成部分:监督式微调、强化学习

监督微调通过高质量且多样化的指令数据赋予模型多模态指令遵循、推理和语音交互能力;强化学习通过直接偏好优化(DPO)进一步增强模型的行为一致性、连贯性和一致性。

在基础设施方面,LongCat-Flash-Omni的核心设计原则借鉴了LongCat-Flash开发过程中使用的训练基础设施,为了保证数值一致性,研究人员强制执行确定性、最小化误差并保持误差的可解释性,从而确保每次训练运行都具有确定性和可复现性。为了提高效率,他们将大模型、视觉编码器和音频编码器的各个组件解耦,从而可以独立优化它们的性能和内存使用情况。

实验结果表明,在多模态环境下,他们的系统能够保持纯文本训练90%以上的吞吐量。

推理与部署时,研究人员提出解耦的多模态推理框架,该框架将特定模态的编码器/解码器与层级模型分离,以实现优化部署。每个模块都部署在与其计算特性相匹配的专用硬件和加速器上,从而缓解跨模态资源争用。

其还采用异步流式模型服务管道,每个模块都支持流式输入的增量推理和自适应批处理策略,从而实现并发调度以降低延迟。

04.

结语:未来要探索

更丰富的具身智能交互形式

大量评估表明,LongCat-Flash-Omni不仅在Omni-Bench和WorldSense等全模态基准测试中取得了最先进的性能,而且在图像和视频理解以及音频理解等关键单模态任务中,其性能也与闭源系统持平甚至更优。此外,主观评估证实了该模型能够提供自然、低延迟、高质量的交互体验,凸显了其作为下一代人机交互界面基础的巨大潜力。

研究人员提到,基于LongCat-Flash-Omni,他们未来的工作将着重于扩展训练数据的多样性和规模、整合自适应思维模式、完善流式传输和生成能力,并探索更丰富的具身智能和交互智能形式。他们相信,LongCat-Flash-Omni的发布不仅将加速多模态理解和生成的研究,还将启发构建以人为本、面向通用人工智能系统的新应用和新范式。(转载自智东西)

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10