摩尔线程“云边端“全栈发布:国产GPU一个更大的故事

光锥智能
3 hours ago

摩尔线程不想只做中国英伟达

文|Stargazer

编|刘俊宏

一家国产GPU公司的产品跨度能有多大?5月18日,摩尔线程的2026产品发布会现场,出现了一幅颇具反差的画面。

舞台一侧展示的是夸娥万卡智算集群,另一侧是自研“长江”SoC驱动的智能终端MTT AICUBE和MTT AIBOOK。软件端,摩尔线程给的是从数字世界智能体“小麦”,到加速物理AI落地的首个全栈具身智能仿真平台MT Lambda,再到持续进化的MUSA生态。

从数据中心到客厅茶几,摩尔线程在同一场发布会上展示了截然不同产品矩阵

显然,这不是一般芯片公司会做的事。它释放的信号很明确:摩尔线程不只想做“国产英伟达”,而是要做一个覆盖云边端的全栈算力基础设施提供商。“全功能GPU”加“统一架构”,是它押注的差异化路线。

从万卡集群到家庭中枢

一套架构打穿

摩尔线程的产品矩阵看似跨度极大,实则共用同一套MUSA架构内核。这是“全功能GPU”路线首次在中国市场完成云边端的完整落地验证。

先看云端,这一次摩尔线程给出的是一套大模型训练的硬件基座。

基于MTT S5000构建的夸娥万卡智算集群已经商业化落地,几个硬指标值得关注:Dense大模型训练算力利用率(MFU)达到60%,MoE大模型达40%,训练线性扩展效率95%,有效训练时长占比超过90%。这几个数字合在一起的意思是——它不仅能跑起来,而且已经是能真实支撑行业应用的水平。

数据指标层面,MTT S5000单卡AI算力(稠密)为1000 TFLOPS,配备80GB显存和1.6TB/s显存带宽,作为国内最早原生支持FP8精度的训练GPU,在DeepSeek-V4、Qwen3.5、GLM-5.1等大模型上实现了“Day-0适配”。面向更大规模的智算需求,摩尔线程第五代“花港”架构已发布,支持十万卡级扩展。更大的算力集群,才能应对不断膨胀的大模型算力支出。

再看端侧,本次发布会的最大新品亮点是MTT AICUBE。

摩尔线程对MTT AICUBE的定义很清晰:不是AI PC,不是NAS,而是“家庭AI中枢”。产品形态上,AICUBE整合了“小麦”全域智能体、50TOPS异构本地算力和全闪存私有云,标配1TB SSD,支持7×24小时运行。小麦智能体集成了90余项CLI系统工具、60余项技能和36款以上APP的跨应用控制,依托摩尔线程自研的MTClaw开源框架,高频工具调用成功率超过95%。

摩尔线程AICUBE的战略意图,非常值得关注。

它搭载的“长江”SoC是摩尔线程自研芯片,集成8个2.65GHz全大核CPU、全功能GPU和高能效NPU,136GB/s内存带宽,最高支持64GB LPDDR5X。这颗芯片同时支撑AI计算、图形渲染和视频编解码——这正是“全功能GPU”理念在终端的延伸。摩尔线程把算力从智算中心推向家庭场景,本质上是在Token时代对端侧算力需求的提前卡位。从某种角度来说,MTT AICUBE有点像是对标谷歌音响。两者区别是谷歌能直连gemini,而MTT AICUBE对模型的支持更加开放。

最后是边缘侧AI产品,摩尔线程带来了MTT E300 AI模组,它具有50TOPS异构算力、-20°C至+65°C宽温设计,面向工业质检、能源巡检、具身智能、低空经济等场景。从全球范围来看,MTT E300 AI模组跟高通今年主推的跃龙系列有点像,都是主打工业领域的AI算力需求。

整体下来,E300与AIBOOK(AI算力本)、AICUBE共同构成“长江”SoC的落地三角,覆盖个人、家庭到行业。

结合云端万卡集群的配置,展示出摩尔线程云边端三层不是割裂的产品线,而是MUSA统一架构在不同算力密度下的三种形态。

全功能GPU路线

摩尔线程在布局什么?

摩尔线程的真正差异化,不在于产品线全,而在于它选择了一条国内罕有的“全功能GPU”技术路线。这个选择背后,是摩尔线程对AI算力终局的一种判断。

什么是全功能GPU?简言之,它不是只做AI加速,也不是图形GPU(渲染),而是单一芯片同时支持AI计算、图形渲染、物理仿真和科学计算、超高清视频编解码的统一架构。换句话说,就是类似英伟达的GPU能力。其他大多数GPU厂商这边,其产品还是有些专门设计,例如AMD的AI芯片和图形芯片分属两套不同架构。

为什么摩尔线程要选择这条路线?因为,未来的AI不只是大模型训练,而是数字世界与物理世界的深度融合。

具身智能行业的发展,已经证明了这一点。在机器人的训练环节中,需要“算+渲+仿”三合一——AI计算训练大脑、图形渲染构建仿真环境、物理引擎模拟真实交互。这在传统架构中,各环节是分开不同设备执行的,这就意味着开发者不得不在异构平台间反复切换。而摩尔线程基于MUSA统一架构,用同一颗芯片就能完成全部任务,数据不再需要“传来传去”。

看到了这一机会,摩尔线程为具身智能专门推出了MT Lambda——国内首个全栈具身智能仿真平台,深度融合物理、渲染、AI三大引擎。今年3月,摩尔线程开源了MuJoCo Warp MUSA,为物理仿真平台MuJoCo提供了国产算力支持,在机器狗训练任务中相较CPU方案实现最高40倍加速。与智源研究院合作,基于千卡S5000集群完成了RoboBrain 2.5具身大脑模型的端到端训练,实测与国际主流GPU结果高度一致。与小马智行、光轮智能、五一视界的合作也在密集落地。

摩尔线程在这个赛道的卡位,本质上是在赌一个判断:物理AI时代,只有全功能GPU能同时支撑“思考”与“行动”两种计算范式。

最后,依然是老生常谈的国产GPU突破最重要的生态难题。在这一部分,摩尔线程也介绍了不少新的进展。

目前,MUSA SDK 5.1.0兼容CUDA 12.8,核心API兼容数达761,PyTorch全量3194个算子100%兼容。软件工具层面,摩尔线程获得了SGLang、vLLM、TileLang三大全球顶级推理框架的官方原生支持。这意味着国产GPU开始从“兼容可用”走向“被主流生态主动接纳”。在开发者社区层面,目前摩尔线程也拥有45万+的社区开发者和200+高校覆盖,这些也能为长期生态建设提供了基础。

但必须指出的是,生态建设没有捷径。从兼容CUDA到建立真正自主的MUSA原生生态,从跟随到引领,这才是真正的长征。

结语

国产GPU的竞争正在从“有没有”进入“能不能打”的第二阶段。

根据IDC数据显示,2025年中国AI加速卡总出货量约400万张,其中国产厂商交付约165万张,国产份额达41%。这组数据已经证明,中国GPU不仅能用,而且已经开始承担AI算力市场的重要角色。

在这一变局中,摩尔线程作为对标英伟达的玩家,正在用统一架构打通云边端,用全功能GPU卡位物理AI时代。至于统一架构能否支撑摩尔线程从“国产替代”真正走向“国际竞争”?接下来AICUBE的京东预售数据和夸娥集群的订单增速,会在今年给出初步答案。

或许,摩尔线程的未来仍然是辛苦的。

根据公司财报显示,摩尔线程2025年营收15.06亿元、同比增长243%,2026年一季度营收7.38亿元、同比增长155%——高增速背后,是摩尔线程从“卖芯片”向“卖算力基础设施”的转型加速。

但无论如何,摩尔线程已经证明了一件事:国产GPU不仅可以追随,也可以尝试定义一条属于自己的技术路线。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10