作者 | ZeR0
编辑 | 漠影
智东西6月9日报道,全球领先的开源解决方案提供商红帽公司于5月19日-22日在美国波士顿举行红帽全球峰会,宣布启动全新开源项目llm-d,以满足生成式AI大规模推理需求。
峰会期间,红帽总裁兼首席执行官Matt Hicks、红帽高级副总裁兼首席营收官Andrew Brown、红帽高级副总裁兼首席产品官Ashesh Badani、红帽首席技术官兼全球工程高级副总裁Chris Wright、红帽合作伙伴生态系统成功高级副总裁Stefanie Chiras等多位红帽高管,与智东西等亚太区媒体进行了深入交流。
Matt Hicks谈道,红帽的使命是为客户提供真正的选择和灵活性,无论是Linux、容器还是自动化,其交付的每一层都保持开放且值得信赖,让用户能放心运行、调整并持续创新。这种开放性催生了vLLM、Kubernetes、OpenShift等项目中的大规模协作与共享标准生态。
Ashesh Badani补充说,开源只是一个许可证,离不开背后社区的支持,新发布的llm-d正印证这一点。红帽与谷歌云、AMD、NVIDIA等众多伙伴共同宣布这一项目,只有在共同创建并持续维护的前提下,开放才真正有意义。
Andrew Brown称,红帽支持任何云、任何连接器、任何模型,没有锁定,客户因此能快速迁移并扩展。这一切都建立在开源之上,进一步加深了客户的信任。
一、红帽推出llm-d社区,助力大规模分布式生成式AI推理
全新开源项目llm-d旨在让生产型生成式AI像Linux一样无处不在,由红帽与创始贡献者CoreWeave、谷歌云、IBM Research、NVIDIA合作打造,联手AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI,并获得了来自加州大学伯克利分校Sky Computing Lab(vLLM的发起者)和芝加哥大学LMCache Lab(LMCache的发起者)的支持。
llm-d采用原生Kubernetes架构、基于vLLM的分布式推理和智能AI感知网络路由,利用大规模生成式AI推理技术,能增强vLLM的能力,使得大语言模型(LLM)推理云能够满足苛刻的生产服务级目标(SLO),为AI推理解锁大规模生产。
根据知名市场调研机构Gartner的数据,到2028年,随着市场的成熟,80%以上的数据中心工作负载加速器将专门部署用于推理,而不是训练用途。
随着推理模型日益复杂和规模不断扩大,其对资源需求的持续攀升限制了集中式推理的可行性,并有可能因成本过高和延迟过长,而使AI创新陷入瓶颈。红帽及其行业合作伙伴正通过llm-d应对这一挑战。
llm-d项目提供了多项创新,包括:
vLLM已迅速成为开源领域的事实标准推理服务器,为新兴的前沿模型提供Day 0模型支持,并支持各种加速器(现已包括谷歌云TPU)。
预填充和解码分离将AI的输入上下文和token生成阶段分离成离散操作,然后将它们分布到多个服务器上。
键值缓存卸载,基于LMCache,将键值缓存的内存负担从GPU内存转移到更具成本效益且容量更大的标准存储,如CPU内存或网络存储。
由Kubernetes驱动的集群和控制器可在工作负载需求波动时更高效地调度计算和存储资源,同时确保性能和较低的延迟。
AI感知网络路由,用于将传入请求调度到最有可能拥有过去推理计算热缓存的服务器和加速器。
高性能通信API可实现服务器之间更快、更高效的数据传输,支持NVIDIA推理传输库(NIXL)。
使用Kubernetes久经考验的编排能力,llm-d将先进的推理能力集成到现有企业IT基础设施中。该统一平台使IT团队能够满足关键业务工作负载的各种服务需求,同时部署创新技术以最大限度地提高效率,并显著降低与高性能AI加速器相关的总拥有成本(TCO)。
红帽认识到,在快速发展的生成式AI推理领域,充满活力且易于访问的社区至关重要。该公司计划积极推动llm-d社区的发展,为新成员营造一个包容的环境,并促进其持续发展。
二、聚生态之力支撑企业级AI,两条路原生支持AI Agent
Stefanie Chiras谈道,生态合作写在红帽的基因里。红帽从上游社区做起,把成果延伸到ISV、系统集成商以及云服务商,现在RHEL与OpenShift已能在AWS、微软Azure、谷歌云、IBM云直接订购;Ansible Automation Platform则通过红帽与IBM渠道销售。AI时代让这种合作更加紧密。
在Ashesh Badani看来,AI可能是过去20年来最深刻的IT变革,甚至可能超过云计算,因为它对日常工作的影响立竿见影。他谈道,从实时版RHEL到AI推理,红帽公布的每一层都是聚合了生态合作伙伴之力,将社区创新转化为企业级方案。
Stefanie Chiras具体分享了三大亮点:
1、RHEL:实时内核与镜像现已同步上架AWS、Azure、谷歌云和Oracle Cloud。同时推出的 RHEL Partner Validation计划允许ISV自助完成兼容性测试并贴上“Validated on RHEL” 标签,上市周期大幅缩短。
2、OpenShift Virtualization:已通过AWS、微软Azure、谷歌云、IBM Cloud、Oracle Cloud Infrastructure认证。正在评估本地虚拟化替代方案的客户,可获得一套随工作负载迁移而跨云一致的现代平台,并配备即插即用的存储、备份/灾备、网络与监控集成。
复星汽车、阿联酋航空等客户反馈,迁移到运行在AMD EPYC处理器上的OpenShift Virtualization后,TCO最高降低77%。
3、AI推理:全新的Red Hat AI Inference Server(内置 vLLM) 首发即支持谷歌云TPU,以及 Intel、AMD、Arm、Power、IBM Z的CPU/GPU。对硬件伙伴而言,只需针对一个推理引擎做优化;对客户而言,可在开放与专有模型之间自由组合。
Chris Wright透露说,红帽将通过两条路径原生支持AI Agent:
1、运行无忧:确保Agent运行时在OpenShift与RHEL上都能高效工作,无论是在数据中心的 GPU,还是边缘节点的CPU。
2、能力内嵌:把Agent能力融入自家产品组合,在Lightspeed旗舰下统一呈现。今天有Ansible Lightspeed,未来还会有面向RHEL与OpenShift的Lightspeed功能。这些服务会暴露API,供Agent调用,实现自动化和日常运维优化。
运行VM(虚拟机)的同一套OpenShift平台,也承载红帽的AI堆栈。“今天把VM现代化,就是为明天的生成式AI打地基。”Ashesh Badani说。
Andrew Brown认为AI的普及速度堪比早期电子商务,横跨所有行业,这是真正的势能,而非炒作。在他看来,缺乏AI技能的新毕业生很快就会被边缘化,而忽视生成式AI的企业则会损失数月的生产力。
据他分享,IDC等市研机构预测,全球约35%的新增AI价值将来自亚太地区。客户选择红帽的原因很简单:平台自由——从小规模起步,快速扩展,并且随时在本地满足需求。
红帽最近发布的OpenShift Virtualization、RHEL镜像模式以及实时特性,让部署更容易,即使身处远离大型科技中心的地区,也能获得一致、安全、可靠的平台体验。
在亚太地区,红帽凭借Red Hat AI Inference Server拿下了不少“新Logo”。这套平台“任何模型、任何连接器、任何云”都能跑,即便只有两名工程师,也能在本地小型集群上迅速搭起生成式AI。
同时,红帽的老客户也在借助Project AI把大语言模型以容器式工件封装,在多云之间自由迁移。
其打法很简单:先帮客户压低AI成本,再提供一个高韧性、高安全的平台来补强(而非替换)现有环境。这套理念在亚太地区非常受认可,系统集成商和ISV已经排队启动试点,有六七个概念验证(PoC)将在本季度落地。
Stefanie Chiras提到印度、中国和东南亚正出现AI井喷,为此红帽成立了面向亚太的共创团队,让他们的工程师与红帽专家并肩开发,再交由系统集成商交付给最终用户。
新推出的RHEL Partner Validation计划,为伙伴打通了快速上市通道,同时也向客户保证“它能在RHEL上运行”,红帽会全程背书。该计划让ISV可自行在RHEL上完成验证,承诺第三方支持,之后再决定是否申请完整认证。
AWS的Distributor Seller of Record(DSOR)计划支持分销商把不同伙伴的产品打包上架。红帽已在澳大利亚把红帽解决方案与本地ISV的AI增值服务捆绑销售,未来RHEL AI和OpenShift AI上市后也会复制这一做法。
无论云厂商推出的是开放还是专有的AI工具,红帽都会“就地对接”,确保工作负载在混合云之间可自由迁移。红帽承诺将客户的选择权放在核心位置,并与每一家超大规模云厂商(hyperscalers)实现无缝集成。
随着AI加速落地,Matt Hicks认为混合云的格局已经翻转。五年前,主旋律还是“全部上公有云”;两年前,大家开始承认,很多工作负载会继续留在本地,同时工厂、门店、车辆等边缘场景迅速崛起。AI进一步放大了这一趋势:为了降低延迟、保证数据就地处理,推理往往必须贴近数据产生点执行。
Matt Hicks说,如今混合云不再是可选项,而是默认架构。在AI时代,一致性、安全、运维管理这些老问题变得不可回避,谁能从核心到边缘把算力和数据统筹起来,谁就能释放巨大的价值。
三、vLLM已成开源推理标准,开放将带来更优质的AI安全改进
正如红帽通过将Linux转变为现代IT的基石,开创了开源企业先河,如今红帽正推动构建AI推理。红帽的愿景非常清晰:无论采用何种AI模型、底层加速器或部署环境,vLLM都能成为新型跨混合云环境推理的开放标准权威。
从GitHub Star、下载量或贡献者增速来看,vLLM已成事实上的开源推理标准。
Matt Hicks认为,现在有两股动力把大家拉向vLLM:一是越来越多厂商把模型checkpoint预先调优到vLLM,缩短上市时间,也把维护成本摊给社区;二是英特尔、AMD、NVIDIA以及各大云厂商的自研芯片团队,都在上游提交优化补丁,让自家硬件“开箱即用”。
在他看来,当模型层和芯片层都在同一个项目里投资源,开放标准就会扎根。
Chris Wright补充分享说,谷歌云TPU、AWS Inferentia等云端芯片都直接往vLLM仓库提PR,连主推Triton的NVIDIA也为vLLM做适配,因为大多数新模型首先登陆vLLM。用户只需pip install vllm、加载模型,就能直接获得收益。
他谈道,在AI领域,“开放”这一概念仍在成形。模型基于海量数据训练后,以工件(artifact)形式发布,常用OSI兼容许可证,允许用户微调、修改权重并再次分发。
早期开源曾被质疑稳健性与安全性,但透明度最终扭转了局面,任何人都能审计代码并修复漏洞,这也是为什么今天大多数加密标准都是开放的。
无论许可证开放还是专有,AI的核心安全议题都是一致的:防止输出敏感或有害内容、阻断越狱(jailbreak)提示、抵御对抗样本与数据投毒。
学术界和社区对这些问题的研究非常活跃,而开放能加速解决方案的演进。红帽团队相信开放将继续带来更快速、更优质的安全改进。
结语:未来AI不应受到基础设施孤岛的限制
从IBM收购红帽的第一天起,双方就统一在三大支柱RHEL、OpenShift、Ansible之上。IBM Cloud Paks很快就成为在OpenShift上构建和运行软件的参考架构,这种一致性变得更为牢固。同样的模式也延伸到虚拟化和AI。IBM的中间件与应用底层统一采用红帽平台。红帽“RHEL + OpenShift核心组合”如今已支撑越来越多的IBM产品,进一步巩固了整个产品线的整合。
AI的未来不应受到基础设施孤岛的限制。红帽团队认为,未来企业可以在任意云环境中的任意加速器上部署任意模型,提供出色且更加一致的用户体验,并且无需高昂的成本。为了释放生成式AI投资的潜力,企业需要一个通用推理平台——一个用以推动未来数年中,更加无缝、更高性能AI创新的标准。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.