GLM-4.5技術博客:原生融合推理、編碼和智能體能力

市場資訊
07/29

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:網易科技)

我們正式介紹兩個新的 GLM 系列成員:GLM-4.5GLM-4.5-Air——我們最新的旗艦模型。GLM-4.5 擁有 3550 億總參數和 320 億激活參數,而 GLM-4.5-Air 擁有 1060 億總參數和 120 億激活參數。兩者都旨在將推理、編碼和智能體能力統一到一個模型中,以滿足快速增長的智能體應用日益複雜的需求。

GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供:用於複雜推理和工具使用的 思考 模式,以及用於即時響應的 非思考 模式。它們可在 Z.ai 、 智譜清言(chatglm.cn)和開放平 臺 BigModel 上使用,開放權重可在 HuggingFace 和 ModelScope 獲取。 歡迎開發者 、 企業、用戶廣泛測試與集成, 探索 AGI 的 奧祕 。

背景:大語言模型的目標是在廣泛領域達到人類認知水平,而非針對特定任務而設計專家模型。一個優秀的大語言模型必須具備通用問題解決、泛化能力、常識推理和自我改進等核心能力。過去五年裏,OpenAI 的 GPT-3 學會了常識知識,而 o1 模型則通過強化學習實現了“先思考後回答”,在編程、數據分析和複雜數學問題上的推理能力得到了顯著提升。然而,現有模型仍然算不上真正的通用模型:有些擅長編程,有些精於數學,有些在推理方面表現出色,但沒有一個能在所有任務上都達到最佳表現。GLM-4.5 正是朝着統一各種能力這一目標努力,力求在一個模型中集成所有這些不同的能力。

總體性能

我們在涵蓋智能體(3 項)、推理(7 項)和編程(2 項)的 12 個基準測試上將 GLM-4.5 與來自 OpenAI、Anthropic、Google DeepMind、xAI、阿里巴巴、月之暗面和深度求索的各種模型進行了比較。總體而言,GLM-4.5 排名第 3,GLM-4.5 Air 排名第 6。

智能體任務

GLM-4.5 是一個爲智能體任務優化的基礎模型。它提供 128k 的上下文長度和原生函數調用能力。我們在 τ-bench 和 BFCL-v3(Berkeley Function Calling Leaderboard v3)上測量了其智能體能力。在這兩個基準測試上,GLM-4.5 與 Claude 4 Sonnet 的性能相匹配。

網頁瀏覽是一個流行的智能體應用,需要複雜的推理和多輪工具使用。我們在 BrowseComp 基準測試上評估了 GLM-4.5,這是一個具有挑戰性的網頁瀏覽基準測試,包含需要簡短回答的複雜問題。藉助網頁瀏覽工具,GLM-4.5 對 26.4% 的問題給出了正確回答,明顯優於 Claude-4-Opus(18.8%),接近 o4-mini-high(28.3%)。下圖顯示了 GLM-4.5 在 BrowseComp 上隨測試時擴展的準確性提升。

推理

在思考模式下,GLM-4.5 和 GLM-4.5-Air 可以解決複雜的推理問題,包括數學、科學和邏輯問題。

對於 AIME 和 GPQA 基準測試,我們分別報告了 32 個和 8 個樣本的平均準確率(Avg@32,Avg@8)以減輕結果方差。使用 LLM 進行自動答案驗證。對於 HLE 基準測試,僅評估基於文本的問題,正確性由 gpt-4o 判斷。

編程

GLM-4.5 擅長編程,包括從頭開始構建編程項目和在現有項目中作爲智能體解決編程任務。

它可以與現有的編程工具無縫結合,如 Claude Code、Roo Code 和 CodeGeex。爲了評估編程能力,我們在 SWE-bench Verified 和 Terminal-Bench 上比較了不同模型。下表展示了結果。

1 對於 SWE-bench Verified,我們使用 OpenHands v0.34.0,運行限制爲 100 次迭代,並截斷歷史記錄以防止超過 128K 上下文限制,配置爲 temperature=0.6,top_p=1.0。

2 對於 Terminal-Bench,我們使用 Terminus 框架進行評估。我們使用標準函數調用而不是直接提示進行評估。

我們對所有比較模型進行了帕累託前沿分析(如下圖所示)。GLM-4.5 和 GLM-4.5-Air 相對於相似規模的模型表現出優越的性能,在性能-參數量權衡上實現了最佳效率。

爲了評估 GLM-4.5 的智能體編程能力,我們使用 Claude Code 作爲評測工具,將其與 Claude 4 Sonnet、Kimi K2 和 Qwen3-Coder 進行對比。測試涵蓋了 52 個編程任務,包括前端開發、工具開發、數據分析、測試和算法實現等多個領域。所有評測都在獨立的 Docker 容器中進行,並通過多輪人機交互並採用標準化的評估準則確保測試的一致性和可重複性。實驗結果顯示,GLM-4.5 對 Kimi K2 的勝率達到 53.9%,對 Qwen3-Coder 更是取得了 80.8% 的壓倒性優勢。儘管 GLM-4.5 展現出了不錯的競爭力,但與 Claude-4-Sonnet 相比,仍有進一步優化的空間。

值得注意的是,GLM-4.5 的平均工具調用成功率最高(90.6%),優於 Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和 Qwen3-Coder(77.1%),展示了在智能體編程任務中的可靠性。所有 52 個編程任務的軌跡公開在此處供社區進一步研究。鏈接:https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

技術 模型架構和預訓練

在 GLM-4.5 系列模型中,我們採用了 MoE(專家混合)架構,這種架構能夠顯著提升訓練和推理時的計算效率。我們在 MoE 層採用了 loss-free balance 路由和 sigmoid gate 機制。與 DeepSeek-V3 和 Kimi K2 的設計思路不同,我們選擇了"瘦高"的模型結構——減少模型的寬度(包括隱藏維度和路由專家的數量),同時增加模型的深度(層數)。我們發現,更深的模型在推理能力上表現更加出色。在自注意力機制方面,我們採用了 partal RoPE 的分組查詢注意力(Grouped-Query Attention)。另外,我們將注意力頭的數量增加到了 2.5 倍(在 5120 的隱藏維度下使用 96 個注意力頭)。有意思的是,雖然增加注意力頭的數量並沒有讓訓練 loss 更低,但在 MMLU 和 BBH 等推理基準測試中,模型的表現卻得到了穩定提升。GLM-4.5 使用了 Muon 優化器,這個優化器不僅能加快模型收斂速度,還能在更大的 Batch Size 下相比 AdamW 保持更好的收斂效果,從而提升訓練效率。我們還引入了 QK-Norm 技術來提升注意力 logits 的數值穩定性。GLM-4.5 和 GLM-4.5-Air 都加入了 MTP(Multi Token Predition)層,用於在推理階段實現推測解碼,進一步提升推理效率。

我們的基礎模型經歷了幾個訓練階段。在預訓練期間,模型首先在 15T token 的通用預訓練語料庫上訓練,然後在 7T token 的代碼和推理語料庫上訓練。預訓練後,我們引入了 Mid-Training 階段來進一步提升模型在專有領域上的性能。

基於 slime 的大模型強化學習

爲了支持 GLM-4.5 這樣的大模型進行高效的強化學習(RL)訓練,我們設計、開發並開源了 slime。這是一個在靈活性、效率和可擴展性方面都表現卓越的 RL 框架,歡迎社區使用並參與貢獻。

slime 旨在解決強化學習中的常見瓶頸,並針對複雜的智能體任務做了優化。

這種整體化的設計使得 slime 能夠無縫集成多個智能體框架,支持各種任務類型,並通過統一而強大的接口高效管理長序列環境交互。

增強智能體能力的後訓練

後訓練對大語言模型至關重要,模型通過自主探索和積累經驗來不斷優化策略。強化學習(RL)是突破模型能力邊界的關鍵步驟。GLM-4.5 不僅整合了 GLM-4-0414 的通用能力和 GLM-Z1 的推理能力,還重點提升了智能體能力,包括智能體編程、深度搜索和通用工具使用。

訓練過程首先在精選的推理數據和合成的智能體場景上進行監督微調,然後通過專門的強化學習階段分別訓練專家模型。

雖然強化學習訓練只針對有限的可驗證任務,但獲得的能力提升可以遷移到相關領域,比如通用工具使用能力。最後,我們通過專家蒸餾將這些專門技能整合起來,使 GLM-4.5 在各項任務上都具備全面的能力。

更多技術細節,請參考即將發佈的 GLM-4.5 技術報告。

演示 Artifacts

GLM-4.5 增強了 GLM-4-0414 的複雜代碼生成能力。GLM-4.5 可以創建複雜的 Artifacts,包括小遊戲、小工具、物理模擬動畫等,支持 HTML、SVG、Python 等多種語言。我們相信 GLM-4.5 的 Artifacts 將提供更好的用戶體驗,同時爲 Agentic Coding 應用奠定了基礎。

Flappy Bird遊戲:https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323

3D 第一人稱迷宮奔跑者:https://chat.z.ai/s/964d99e9-4756-4733-88ae-2c7814abb406

帶有拖拽和搜索功能的 TODO 看板:https://chat.z.ai/s/b262f532-7b4d-4ed3-9a94-c9afad9f59c1

SVG 動畫-語言模型的演變:https://chat.z.ai/s/6e4c7742-7a2d-469f-9dee-b1b35166efe4

嵌套旋轉六邊形的 Python 模擬:https://chat.z.ai/s/48d4a175-7757-44ea-b459-12eea185da81

關於麥克斯韋方程組的 Beamer 幻燈片:https://chat.z.ai/s/c85caa2e-adf5-4697-b03d-af59647fe637

幻燈片創建

在 GLM-4.5 工具使用和 HTML 編碼能力的基礎上,我們開發了一個模型原生的 PPT/ Poster 智能體。無論用戶需要簡單還是複雜的設計,或是上傳文檔資料,GLM-4.5 Agent 都能自動搜索網絡資源、獲取相關圖片,並生成相應的幻燈片。

塔代伊·波加查爾的成就:https://chat.z.ai/s/e674f111-2f70-4df5-accc-98da4d498058

PDF2PPT(ChatGLM論文):https://chat.z.ai/s/92e21b4c-b8fd-4909-95b0-e26c814688e7

蒙娜麗莎的內心獨白:https://chat.z.ai/s/9d6abba7-dd0b-47b6-a552-3aff87b81341

海報(大爆炸理論):https://chat.z.ai/s/666f0626-b285-4722-aa21-98836f4c673a

海報(寵物領養):https://chat.z.ai/s/93defdcb-3902-4492-a72e-775331466eab

全棧開發

GLM-4.5 在前後端開發上遊刃有餘,是構建現代 Web 應用的利器。爲了充分展現這一能力,我們借鑑 Claude Code 框架打造了一款編碼智能體。基於預置的全棧網站框架,用戶可以一句話生成完整網站,並通過多輪對話輕鬆添加新功能、完善項目細節。

寶可夢:https://chat.z.ai/s/f8c2f383-51d4-40b8-82e5-63529eaa00db

中世紀詩歌生成器:https://chat.z.ai/s/2aee0791-1d01-4b59-8f45-1a5bac46f6a1

賽博朋克卡牌生成:https://chat.z.ai/s/4b0d2f79-f4fa-4607-aadf-c4514bb594a8

開始使用 GLM-4.5

在 Z.ai、智譜清言上與 GLM-4.5 聊天

GLM-4.5 可通過 Z.ai 平臺訪問,方法是選擇 GLM-4.5 模型選項。該平臺全面支持前端產物生成、演示幻燈片創建和全棧開發能力。

在 BigModel.cn 上調用 GLM-4.5 API

BigModel API 平臺 爲 GLM-4.5 和 GLM-4.5-Air 模型提供 OpenAI 兼容的接口。有關全面的 API 文檔和集成指南,請參考 https://docs.bigmodel.cn/cn/guide/models/text/glm-4.5。

將 GLM-4.5 與編碼代理一起使用

有關將 GLM-4.5 與 Claude Code 和其他編碼代理框架集成的詳細說明,請參閱 BigModel.cn 上的文檔。

本地部署 GLM-4.5

GLM-4.5 和 GLM-4.5-Air 的基礎和聊天變體的模型權重在 HuggingFace 和 ModelScope 上公開可用。對於本地部署,GLM-4.5 支持包括 vLLM 和 SGLang 在內的推理框架。全面的部署說明,詳見官方 GitHub 倉庫(https://github.com/zai-org/GLM-4.5)。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10