进入AI应用时代,CPU有望成为下一个“存储”机遇吗?

中金财经
Jan 13

  在算力需求暴增的今天,CPU是否会重演PC时代崛起神话?这是一个值得思考的问题。如今,大模型推理、端侧AI、智能物联网正将计算压力推向新的临界点。英特尔AMD股价悄然攀升,Arm架构异军突起,甚至连苹果小米都在自研芯片中加大CPU投入。这究竟是短暂的风口,还是结构性机遇的开始?当云端集群的CPU利用率逼近红线,当每台终端设备都需要独立的AI推理能力,传统处理器是否已经站在爆发的边缘?推理有望成为重要方向随着AI应用从实验室走向千行百业,推理计算正取代训练成为AI算力的主战场。据IDC与浪潮信息联合预测,2023年中国AI服务器工作负载中训练端占比58.7%,而到2027年推理端算力需求将飙升至72.6%。当大模型逐渐成熟,企业对算力的需求不再是砸钱堆叠训练集群,而是如何将模型高效、经济地部署到真实业务场景中。这种转变,让CPU这一传统通用处理器重新站在了舞台中央。    在推理场景中,CPU的性价比优势正被重新发现。与动辄数十万、功耗惊人的GPU相比,CPU在成本、可用性和总拥有成本(TCO)上展现出无可比拟的竞争力。英特尔数据显示,使用CPU进行AI推理无需构建新的IT基础设施,可复用既有平台空闲算力,避免异构硬件带来的管理复杂度。更重要的是,通过AMX加速、INT8量化优化等技术,现代CPU的推理性能已实现质的飞跃。实测表明,经过优化的至强处理器在ResNet-50等模型上推理速度提升可达8.24倍,精度损失不足0.17%。这种模式,正中中小企业下怀——它们不需要GPT-4级别的算力,但需要能跑通32B参数模型的经济型方案。CPU的用武之地,恰恰集中在AI推理的"长尾市场"。第一类是小语言模型(SLM)部署,如DeepSeek-R1 32B、Qwen-32B等模型,它们在企业级场景中文能力突出,参数规模适中,CPU完全能够胜任。第二类是数据预处理与向量化环节,这类任务涉及文本清洗、特征提取、嵌入生成等,天然适合CPU的串行处理能力。第三类是并发量高但单次计算简单的"长尾"推理任务,如客服问答、内容审核等,CPU可通过多核心并行处理数百个轻量级请求,实现更高的吞吐率。这些场景的共同点是:对延迟要求相对宽松,但对成本极度敏感,正是CPU大显身手的舞台。2025年以来的许多上市公司已经将相关产品推向市场。浪潮信息(000977) 在3月率先推出元脑CPU推理服务器NF8260G7,搭载4颗英特尔至强处理器,通过张量并行和AMX加速技术,单机可高效运行DeepSeek-R1 32B模型,单用户性能超20 tokens/s,同时处理20个并发请求。神州数码(000034) 则在7月的WAIC大会上发布KunTai R622 K2推理服务器,基于鲲鹏CPU架构,在2U空间内支持4张加速卡,主打"高性能、低成本"路线,瞄准金融、运营商等预算敏感型行业。这些厂商的布局揭示了一个明确信号:CPU推理不是退而求其次,而是主动战略选择。更深层的逻辑在于,AI算力正在走向"去中心化"和"场景化"。当每个工厂、每家医院甚至每个手机都需要嵌入式推理能力时,不可能也不必要全部依赖GPU集群。CPU作为通用算力底座,能够将AI能力无缝融入现有IT架构,实现"计算即服务"的平滑过渡。在这个意义上,CPU的确正在成为AI时代的"新存储":它不是最闪耀的,但却是不可或缺的算力基础设施。CPU 可能比 GPU 更早成为瓶颈在Agent驱动的强化学习(RL)时代,CPU的瓶颈效应正以比GPU短缺更隐蔽却更致命的方式浮现。与传统单任务RL不同,现代Agent系统需要同时运行成百上千个独立环境实例来生成训练数据,这种"环境并行化"需求让CPU成为事实上的第一块短板。2025年9月,蚂蚁集团开源的AWORLD框架将Agent训练解耦为推理/执行端与训练端后,被迫采用CPU集群承载海量环境实例,而GPU仅负责模型更新。这种架构选择并非设计偏好,而是环境计算密集型的必然结果——每个Agent在与操作系统、代码解释器或GUI界面交互时,都需要独立的CPU进程进行状态管理、动作解析和奖励计算,导致核心数直接决定了可同时探索的轨迹数量。更深层的矛盾在于CPU-GPU pipeline的异步失衡。当CPU侧的环境模拟速度无法匹配GPU的推理吞吐量时,policy lag(策略滞后)急剧恶化——GPU被迫空转等待经验数据,而Agent正在学习的策略与采集数据时的旧策略之间产生致命时差。这种滞后不仅降低样本效率,更在PPO等on-policy算法中引发训练震荡,甚至导致策略发散。智元机器人2025年3月开源的VideoDataset项目印证了这一点:其CPU软件解码方案成为训练瓶颈,切换到GPU硬件解码后吞吐量提升3-4倍,CPU利用率才从饱和状态回落。2025年的工业级实践进一步暴露了CPU瓶颈对收敛稳定性的系统性破坏。腾讯的AtlasTraining RL框架在万亿参数模型训练中,不得不专门设计异构计算架构来协调CPU与GPU的协作,因其发现环境交互的随机种子、CPU核心调度策略的微小差异,会通过早期学习轨迹的蝴蝶效应影响最终策略性能。更严峻的是,多智能体强化学习(MARL)的非平稳性加剧了这一问题——当数百个Agent策略同步更新时,CPU不仅要模拟环境,还需实时计算联合奖励、协调通信,这直接导致状态空间复杂度呈指数级增长。本质上,Agent RL将计算范式从"模型密集"转向"环境密集",而CPU正是环境模拟的物理载体。当Agent需要探索工具使用、长链推理等复杂行为时,每个环境实例都是一个小型操作系统,消耗1-2个CPU核心。此时,投入再多的A100或H200,若CPU核心数不足,GPU利用率仍会在30%以下徘徊,收敛时间从数周延长至数月。2025年,这种瓶颈已从学术研究蔓延至产业实践,解决CPU瓶颈已成为RL infra的核心战场。Agent时代的算力竞赛,胜负手或许不在GPU的峰值算力,而在于能否用足够的CPU核心喂饱那些饥饿的智能体。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10