GLM-4.5技术博客:原生融合推理、编码和智能体能力

市场资讯
Jul 29

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:网易科技)

我们正式介绍两个新的 GLM 系列成员:GLM-4.5GLM-4.5-Air——我们最新的旗舰模型。GLM-4.5 拥有 3550 亿总参数和 320 亿激活参数,而 GLM-4.5-Air 拥有 1060 亿总参数和 120 亿激活参数。两者都旨在将推理、编码和智能体能力统一到一个模型中,以满足快速增长的智能体应用日益复杂的需求。

GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供:用于复杂推理和工具使用的 思考 模式,以及用于即时响应的 非思考 模式。它们可在 Z.ai 、 智谱清言(chatglm.cn)和开放平 台 BigModel 上使用,开放权重可在 HuggingFace 和 ModelScope 获取。 欢迎开发者 、 企业、用户广泛测试与集成, 探索 AGI 的 奥秘 。

背景:大语言模型的目标是在广泛领域达到人类认知水平,而非针对特定任务而设计专家模型。一个优秀的大语言模型必须具备通用问题解决、泛化能力、常识推理和自我改进等核心能力。过去五年里,OpenAI 的 GPT-3 学会了常识知识,而 o1 模型则通过强化学习实现了“先思考后回答”,在编程、数据分析和复杂数学问题上的推理能力得到了显著提升。然而,现有模型仍然算不上真正的通用模型:有些擅长编程,有些精于数学,有些在推理方面表现出色,但没有一个能在所有任务上都达到最佳表现。GLM-4.5 正是朝着统一各种能力这一目标努力,力求在一个模型中集成所有这些不同的能力。

总体性能

我们在涵盖智能体(3 项)、推理(7 项)和编程(2 项)的 12 个基准测试上将 GLM-4.5 与来自 OpenAI、Anthropic、Google DeepMind、xAI、阿里巴巴、月之暗面和深度求索的各种模型进行了比较。总体而言,GLM-4.5 排名第 3,GLM-4.5 Air 排名第 6。

智能体任务

GLM-4.5 是一个为智能体任务优化的基础模型。它提供 128k 的上下文长度和原生函数调用能力。我们在 τ-bench 和 BFCL-v3(Berkeley Function Calling Leaderboard v3)上测量了其智能体能力。在这两个基准测试上,GLM-4.5 与 Claude 4 Sonnet 的性能相匹配。

网页浏览是一个流行的智能体应用,需要复杂的推理和多轮工具使用。我们在 BrowseComp 基准测试上评估了 GLM-4.5,这是一个具有挑战性的网页浏览基准测试,包含需要简短回答的复杂问题。借助网页浏览工具,GLM-4.5 对 26.4% 的问题给出了正确回答,明显优于 Claude-4-Opus(18.8%),接近 o4-mini-high(28.3%)。下图显示了 GLM-4.5 在 BrowseComp 上随测试时扩展的准确性提升。

推理

在思考模式下,GLM-4.5 和 GLM-4.5-Air 可以解决复杂的推理问题,包括数学、科学和逻辑问题。

对于 AIME 和 GPQA 基准测试,我们分别报告了 32 个和 8 个样本的平均准确率(Avg@32,Avg@8)以减轻结果方差。使用 LLM 进行自动答案验证。对于 HLE 基准测试,仅评估基于文本的问题,正确性由 gpt-4o 判断。

编程

GLM-4.5 擅长编程,包括从头开始构建编程项目和在现有项目中作为智能体解决编程任务。

它可以与现有的编程工具无缝结合,如 Claude Code、Roo Code 和 CodeGeex。为了评估编程能力,我们在 SWE-bench Verified 和 Terminal-Bench 上比较了不同模型。下表展示了结果。

1 对于 SWE-bench Verified,我们使用 OpenHands v0.34.0,运行限制为 100 次迭代,并截断历史记录以防止超过 128K 上下文限制,配置为 temperature=0.6,top_p=1.0。

2 对于 Terminal-Bench,我们使用 Terminus 框架进行评估。我们使用标准函数调用而不是直接提示进行评估。

我们对所有比较模型进行了帕累托前沿分析(如下图所示)。GLM-4.5 和 GLM-4.5-Air 相对于相似规模的模型表现出优越的性能,在性能-参数量权衡上实现了最佳效率。

为了评估 GLM-4.5 的智能体编程能力,我们使用 Claude Code 作为评测工具,将其与 Claude 4 Sonnet、Kimi K2 和 Qwen3-Coder 进行对比。测试涵盖了 52 个编程任务,包括前端开发、工具开发、数据分析、测试和算法实现等多个领域。所有评测都在独立的 Docker 容器中进行,并通过多轮人机交互并采用标准化的评估准则确保测试的一致性和可重复性。实验结果显示,GLM-4.5 对 Kimi K2 的胜率达到 53.9%,对 Qwen3-Coder 更是取得了 80.8% 的压倒性优势。尽管 GLM-4.5 展现出了不错的竞争力,但与 Claude-4-Sonnet 相比,仍有进一步优化的空间。

值得注意的是,GLM-4.5 的平均工具调用成功率最高(90.6%),优于 Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和 Qwen3-Coder(77.1%),展示了在智能体编程任务中的可靠性。所有 52 个编程任务的轨迹公开在此处供社区进一步研究。链接:https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

技术 模型架构和预训练

在 GLM-4.5 系列模型中,我们采用了 MoE(专家混合)架构,这种架构能够显著提升训练和推理时的计算效率。我们在 MoE 层采用了 loss-free balance 路由和 sigmoid gate 机制。与 DeepSeek-V3 和 Kimi K2 的设计思路不同,我们选择了"瘦高"的模型结构——减少模型的宽度(包括隐藏维度和路由专家的数量),同时增加模型的深度(层数)。我们发现,更深的模型在推理能力上表现更加出色。在自注意力机制方面,我们采用了 partal RoPE 的分组查询注意力(Grouped-Query Attention)。另外,我们将注意力头的数量增加到了 2.5 倍(在 5120 的隐藏维度下使用 96 个注意力头)。有意思的是,虽然增加注意力头的数量并没有让训练 loss 更低,但在 MMLU 和 BBH 等推理基准测试中,模型的表现却得到了稳定提升。GLM-4.5 使用了 Muon 优化器,这个优化器不仅能加快模型收敛速度,还能在更大的 Batch Size 下相比 AdamW 保持更好的收敛效果,从而提升训练效率。我们还引入了 QK-Norm 技术来提升注意力 logits 的数值稳定性。GLM-4.5 和 GLM-4.5-Air 都加入了 MTP(Multi Token Predition)层,用于在推理阶段实现推测解码,进一步提升推理效率。

我们的基础模型经历了几个训练阶段。在预训练期间,模型首先在 15T token 的通用预训练语料库上训练,然后在 7T token 的代码和推理语料库上训练。预训练后,我们引入了 Mid-Training 阶段来进一步提升模型在专有领域上的性能。

基于 slime 的大模型强化学习

为了支持 GLM-4.5 这样的大模型进行高效的强化学习(RL)训练,我们设计、开发并开源了 slime。这是一个在灵活性、效率和可扩展性方面都表现卓越的 RL 框架,欢迎社区使用并参与贡献。

slime 旨在解决强化学习中的常见瓶颈,并针对复杂的智能体任务做了优化。

这种整体化的设计使得 slime 能够无缝集成多个智能体框架,支持各种任务类型,并通过统一而强大的接口高效管理长序列环境交互。

增强智能体能力的后训练

后训练对大语言模型至关重要,模型通过自主探索和积累经验来不断优化策略。强化学习(RL)是突破模型能力边界的关键步骤。GLM-4.5 不仅整合了 GLM-4-0414 的通用能力和 GLM-Z1 的推理能力,还重点提升了智能体能力,包括智能体编程、深度搜索和通用工具使用。

训练过程首先在精选的推理数据和合成的智能体场景上进行监督微调,然后通过专门的强化学习阶段分别训练专家模型。

虽然强化学习训练只针对有限的可验证任务,但获得的能力提升可以迁移到相关领域,比如通用工具使用能力。最后,我们通过专家蒸馏将这些专门技能整合起来,使 GLM-4.5 在各项任务上都具备全面的能力。

更多技术细节,请参考即将发布的 GLM-4.5 技术报告。

演示 Artifacts

GLM-4.5 增强了 GLM-4-0414 的复杂代码生成能力。GLM-4.5 可以创建复杂的 Artifacts,包括小游戏、小工具、物理模拟动画等,支持 HTML、SVG、Python 等多种语言。我们相信 GLM-4.5 的 Artifacts 将提供更好的用户体验,同时为 Agentic Coding 应用奠定了基础。

Flappy Bird游戏:https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323

3D 第一人称迷宫奔跑者:https://chat.z.ai/s/964d99e9-4756-4733-88ae-2c7814abb406

带有拖拽和搜索功能的 TODO 看板:https://chat.z.ai/s/b262f532-7b4d-4ed3-9a94-c9afad9f59c1

SVG 动画-语言模型的演变:https://chat.z.ai/s/6e4c7742-7a2d-469f-9dee-b1b35166efe4

嵌套旋转六边形的 Python 模拟:https://chat.z.ai/s/48d4a175-7757-44ea-b459-12eea185da81

关于麦克斯韦方程组的 Beamer 幻灯片:https://chat.z.ai/s/c85caa2e-adf5-4697-b03d-af59647fe637

幻灯片创建

在 GLM-4.5 工具使用和 HTML 编码能力的基础上,我们开发了一个模型原生的 PPT/ Poster 智能体。无论用户需要简单还是复杂的设计,或是上传文档资料,GLM-4.5 Agent 都能自动搜索网络资源、获取相关图片,并生成相应的幻灯片。

塔代伊·波加查尔的成就:https://chat.z.ai/s/e674f111-2f70-4df5-accc-98da4d498058

PDF2PPT(ChatGLM论文):https://chat.z.ai/s/92e21b4c-b8fd-4909-95b0-e26c814688e7

蒙娜丽莎的内心独白:https://chat.z.ai/s/9d6abba7-dd0b-47b6-a552-3aff87b81341

海报(大爆炸理论):https://chat.z.ai/s/666f0626-b285-4722-aa21-98836f4c673a

海报(宠物领养):https://chat.z.ai/s/93defdcb-3902-4492-a72e-775331466eab

全栈开发

GLM-4.5 在前后端开发上游刃有余,是构建现代 Web 应用的利器。为了充分展现这一能力,我们借鉴 Claude Code 框架打造了一款编码智能体。基于预置的全栈网站框架,用户可以一句话生成完整网站,并通过多轮对话轻松添加新功能、完善项目细节。

宝可梦:https://chat.z.ai/s/f8c2f383-51d4-40b8-82e5-63529eaa00db

中世纪诗歌生成器:https://chat.z.ai/s/2aee0791-1d01-4b59-8f45-1a5bac46f6a1

赛博朋克卡牌生成:https://chat.z.ai/s/4b0d2f79-f4fa-4607-aadf-c4514bb594a8

开始使用 GLM-4.5

在 Z.ai、智谱清言上与 GLM-4.5 聊天

GLM-4.5 可通过 Z.ai 平台访问,方法是选择 GLM-4.5 模型选项。该平台全面支持前端产物生成、演示幻灯片创建和全栈开发能力。

在 BigModel.cn 上调用 GLM-4.5 API

BigModel API 平台 为 GLM-4.5 和 GLM-4.5-Air 模型提供 OpenAI 兼容的接口。有关全面的 API 文档和集成指南,请参考 https://docs.bigmodel.cn/cn/guide/models/text/glm-4.5。

将 GLM-4.5 与编码代理一起使用

有关将 GLM-4.5 与 Claude Code 和其他编码代理框架集成的详细说明,请参阅 BigModel.cn 上的文档。

本地部署 GLM-4.5

GLM-4.5 和 GLM-4.5-Air 的基础和聊天变体的模型权重在 HuggingFace 和 ModelScope 上公开可用。对于本地部署,GLM-4.5 支持包括 vLLM 和 SGLang 在内的推理框架。全面的部署说明,详见官方 GitHub 仓库(https://github.com/zai-org/GLM-4.5)。

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10