4月30日,智譜盤中升逾7%, 消息方面:智譜首次系統披露GLM-5系列模型在超大規模Coding Agent調用場景下的底層推理技術突破。
消息面上,4月30日,智譜公衆號發文,首次系統披露GLM-5系列模型在超大規模Coding Agent調用場景下的底層推理技術突破。包括兩個關鍵Bug的定位及修復、一項性能優化創新、以及一個意外的監控機制突破。針對Context Parallel策略中的KV Cache冗餘存儲問題,智譜設計實現了KV Cache分層存儲方案 LayerSplit,這一優化直接大幅提升智譜在Coding場景下的服務能力上限。此外,公司推理優化還在進一步加速,大幅提升單位算力token吞吐效率,降低推理成本。
本次披露的工程突破具備明確的技術深度——團隊不僅在自有推理鏈路中定位並修復了PD分離架構下的KV Cache跨節點複用競態,更進一步在主流開源推理框架SGLang的源代碼層面發現並修復了HiCache模塊的加載時序缺失(read-before-ready)問題,修復方案被SGLang開源社區採納,其底層基礎設施能力不僅服務於自身模型,也正在成為大模型行業的公共基礎設施之一。