专为端侧大模型而生:解密AI计算加速“秘密武器”Arm China周易X3 NPU IP

智东西
Nov 14, 2025

作者 | 云鹏

编辑 | 漠影

机器人走猫步引爆行业、舞蹈功夫如人类般丝滑;AI手机一句话订外卖做报告、懂你所想知你所言;AI PC本地部署模型,打造超级端侧智能体给企业提效降本;AI眼镜智能识物、随拍随聊,智能汽车毫秒级实时分析路况……

今天,从AI手机、AI PC、AI穿戴、智能汽车到具身智能,AI从云端加速走向端侧。

端侧AI的发展正进入加速演进的新纪元,大模型向多模态方向发展,海量优秀端侧模型涌现、快速迭代,模型小型化、垂类化发展趋势明显,Agentic AI成为重要趋势方向。

一系列变化给AI算力侧带来新的挑战。

端侧AI任务从早期单一语音识别发展至复杂环境感知、多模态交互等方向,AI计算工作的规模和复杂性显著提升,能效优化、安全架构、软硬件协同、标准化生态构建,诸多问题摆在面前。

端侧AI需要的不是单纯的算力堆叠,而是效率优先,行业需要一个综合性、系统性、全局优化且更加灵活、生态兼容性出色的算力底座。

在这样的趋势下,异构计算模式成为主流方向,芯片设计正在从“通用计算”向“定制化异构计算”转变,其中具有独特优势的NPU日益成为关键支撑部分。

昨日,安谋科技Arm China正式发布了专为端侧大模型而生的最新一代NPU IP——“周易”X3,与Arm架构CPU、GPU协同,组成异构算力“更优解”,直指端侧AI落地行业关键痛点。

在安谋科技看来,新一代NPU是引领端侧AI进化的关键。从全面的模型支持、通用的硬件架构、成熟开放的软件生态、出色的算力带宽、优化的能效面效到优秀的扩展性和系统一致性,安谋科技给端侧AI算力破局提供了“芯”路径。

一、端侧AI时代,NPU成异构算力重要组成,“周易”剑指行业痛点

今天,端侧AI的发展势不可挡,其在响应速度、数据安全、网络依赖性、运行成本等方面均有明显优势,但在端侧AI的落地过程中所涌现出的问题和挑战同样不容忽视。

计算平台基础AI算力不足、存储带宽遇到瓶颈、终端设备的电池续航相对有限、散热空间和散热能力有限、模型适配同样不够完善。

在这样的背景下,NPU(神经网络处理器)作为专为AI计算和机器学习而设计的重要计算单元,几乎已经成为今天各类端侧AI设备实现优秀AI体验的“刚需”,在执行当下主流的端侧AI推理任务时,能实现更高计算效率和更好的能效比。

在安谋科技看来,“周易”NPU团队是驱动创新的核心引擎,NPU也一直是安谋科技的战略核心产品。

从2018年开始,安谋科技就组建了国内最早的NPU研发团队之一,目前已经交付了5代NPU,并实现了在终端领域的商业落地,研发团队在硬件、软件、工具工具、方案等方面均有技术积累。据称“周易”NPU的研发和支持100%来自中国本土团队。

今天,中国无疑是端侧AI落地的桥头堡,拥有着规模最大同时最具增长潜力的市场。我们看到,在AI手机、AI PC、AI眼镜、智能汽车、具身智能等热门终端赛道,头部玩家几乎均以中国企业占据主导。

我们看到,安谋科技背靠Arm架构技术与生态系统,将Arm CPU、GPU与安谋科技自研业务产品异构融合,“周易”NPU作为更聚焦国内市场需求的异构计算解决方案,无疑会为国内端侧AI落地注入重要驱动力。

二、多年迭代沉淀,“周易”X3揭开面纱,软硬深度协同是杀手锏

“周易”NPU历经多年迭代与技术沉淀,已构建完整的硬件IP和Compass软件平台,涵盖X系列与Z系列的多款产品。此次发布的“周易”X3,是安谋科技基于对当前技术发展趋势和行业需求痛点精准研判,对NPU IP的一次重要升级。

具体来看,“周易”X3重点在性能和易用性进行了升级,定位是“专为大模型而生”,采用了最新的DSP+DSA架构,从定点转向浮点计算,其最核心的特点是通用、灵活、高效、软硬件紧密协同的计算架构。

新的“周易”X3 NPU IP可以兼顾传统CNN架构与当下主流的Transformer架构,可以满足各类端侧大模型的计算需求,进而加速Gen AI、Agentic AI与Physical AI在端侧的落地。

硬件架构方面,在关键性能提升上,“周易”X3单Cluster算力可以支持8-80TFLOPS(FP8),灵活可配,单核心带宽最高为256GB/s,可以实现更高的数据吞吐量。

带宽可以说是大模型流畅运行的“生命线”,是影响大模型响应速度与性能的关键硬件指标,带宽能力的大幅提升,其重要性不言而喻。

同时,“周易”X3还支持端侧大模型必备的W4A8和W4A16计算加速模式,集成了 安谋科技自研的解压硬件WDC,可以让大模型Weight软件无损压缩后通过硬件解压获得额外约15%的等效带宽,进而提升计算效率和计算密度。

此外,“周易”X3采用了AI专属硬件引擎AIFF,配合专用硬化调度器,可以实现低至0.5%的CPU负载和低调度延迟,让NPU在并行处理多项AI任务时可以更高效,实际AI应用体验更流畅。

软件生态方面,“周易”Compass AI软件平台可以称得上是“金牌辅助”,历经多轮迭代,从各个方面优化了大模型端到端性能,提供统一的端到端工具链支持全系列“周易”NPU。

目前Compass AI软件平台已经兼容了TensorFlow、ONNX、Pytorch等主流AI框架,有着出色的大模型动态Shape支持能力,同时支持GPTQ等大模型主流量化方案、Hugging Face模型库,以及LLM、VLM、VLA、MoE等多种类型的模型。

在模型支持方面,“周易”X3支持的算子数量超过160个、支持的模型数量超过270个。在Compass AI软件平台的加持下,开发门槛显著降低,进一步加速“周易”NPU生态的扩展。

面向广大开发者,Compass AI平台可以提供先进的量化和性能优化算法,让开发者充分优化精度和性能。同时,平台支持用户模型和自定义算子等开发和调试,以及赋能客户进行产品差异化设计,这些能力均与当下开发者的关键诉求相一致。

总体来看,软硬技术深度协同是“周易”X3的核心优势,其CNN模型性能相较上一代提升了30-50%。基于对各类大模型推理进行深度优化,“周易”X3在相同算力规格下,AIGC大模型能力提升了10倍左右。

其多核算力线性度可以达到70-80%,大模型Prefill阶段算力利用率提升至72%,Decode阶段有效带宽利用率在开启安谋科技自研的解压引擎WDC情况下超过100%,可以更充分地释放硬件算力潜力。

可以说,“周易”X3给端侧AI计算效率立了一个新的标杆。

三、从AI手机、AI PC到智能座舱、具身智能,“周易”NPU生态迸发巨大潜力

此次在发布会现场的Demo展区,我们看到基于“周易”NPU IP实现的诸多场景化落地解决方案,优秀的端侧AI体验,正加速走向现实。

从“周易”Z1的AI人脸识别、AI物体识别、AI语音识别到“周易”Z2的图像超分辨率优化、智能座舱应用,再到“周易”X1的AI图像降噪、“周易”X2的文生图、文搜图AI应用,我们看到“周易”系列NPU是持续迭代的,是能够“进化”的,与技术发展紧密同步,与行业需求紧密结合。

这次在“周易”X3上,我们看到其在多模态方面的诸多AI应用,比如在当下业内大火的AI视觉识物、AI读懂世界方面,基于“周易”X3,AI PC本地运行MinicpM v2.6模型,可以实现随时拍照随时识图,AI快速图解各类事物。

从现场演示案例来看,AI对照片的描述是具体准确的,可以给出“日落时宁静的海滩景色”这类描述,甚至可以读出图中的一些“气氛”、“意境”,对于沙滩、海浪和一些景物纹理、形状都可以有比较具体的描述。

在经典的文生图应用方面,基于“周易”X3,AI PC本地运行Stable Diffusion v1.5,可以实现流畅高质量的端侧文生图,从演示案例来看,图片的清晰度不错,同时生成速度仅为“秒级”,AI可以帮助创作者更高效地将创意想法变为现实。

在基础的文生文应用中,我们看到“周易”X3可以支持端侧运行DeepSeek-R1-Distill-Qwen-1.5B,AI对话的流畅度、tokens生成速度都有比较明显的提升。

整体来看,相比前代产品,X3在性能方面的大幅提升以及生态方面的出色支持,带来的最直观效果就是AI应用实际体验的流畅度大幅提升,“又快又好”成为常态。

今天我们在现场看到的演示只是“冰山一角”,从加速卡、AI PC、AI手机、具身智能、智能座舱、ADAS(高级驾驶辅助系统)到智能IPC等终端,聚焦端侧各类场景的“周易”X3 NPU IP已经可以覆盖基础设施、智能汽车、移动终端、智能物联等领域。

展望未来,随着AI行业发展,NPU潜力正愈发凸显。Agentic AI快速发展、物理AI崭露头角,AI沿着这些重要路径快速发展,端侧AI领域涌现出诸多新蓝海。

安谋科技提到,未来其“周易”NPU产品将继续迭代,当前计算架构持续演进,更高效的通用计算能力、更强的计算扩展能力、更多的数据格式支持、更高效的软件使用界面都将是后续NPU架构未来演进的方向。

虽然技术发展的趋势和方向在不断调整,但性能、能效、时延、安全、成本等核心命题的重要性仍然不会变。

正如安谋科技所提到的,他们“要在不确定性中寻找确定性”,比如在低比特量化、浮点运算等方向持续推动,在提升产品核心能力的基础上,保持产品出色的灵活性,以应对复杂的行业挑战和客户对灵活性的高要求。

可以看到,今天的“周易”NPU基于自身独特优势,面向端侧AI加速落地的未来展现出巨大潜力。

结语:前瞻性布局端侧AI,安谋科技用技术和生态领跑行业

今天,端侧AI的浪潮正在重塑人机交互的未来,推动“千人千面”的实时智能深入千行百业。从计算IP、开源软件栈、工具链到算法优化,安谋科技有着Arm全栈技术生态支撑,加之自身出色技术创新能力,赋能国内芯片赛道玩家抓住端侧AI机遇。

专为端侧大模型设计的安谋科技“周易”X3,凭借其专用化设计与软硬件协同优化能力,给端侧AI应用体验带来了一次跃迁升级,无疑将成为推动行业变革的核心技术底座。

多年来,安谋科技一直专注于核心IP设计,进行前瞻布局,解决客户自研AI芯片的关键痛点。目前安谋科技的核心战略发展方向已经很明确,就是全力“All in AI”。

值得一提的是,从多年来的技术和产品布局来看,安谋科技对AI的全力以赴并非是追热点,而是一种长期主义的坚持,做“正确但困难”的事情。在今天的中国,有这样一群工程师,正“以硅为笔,以梦为墨”,书写着中国智能计算的新故事。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10