炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
多模態大模型正在從“看得見”走向“看得懂、想得通”。
智譜正式發佈 GLM-4.1V-Thinking 系列模型,並率先開源GLM-4.1V-9B-Thinking,標誌着智譜 GLM 視覺大模型向高階認知邁出了關鍵一步。
該模型引入課程採樣強化學習(RLCS, Reinforcement Learning with Curriculum Sampling)策略,在多個複雜推理任務中實現能力突破,整體性能達到 10B 級別視覺語言模型的領先水平。在 18 項權威評測中,GLM-4.1V-9B-Thinking 的表現已可比肩甚至超越參數量高達 72B 的 Qwen2.5-VL-72B,充分展示出結構設計與訓練策略的先進性與效率。
論文鏈接:
開源列表:
API:
模型效果
GLM-4.1V-9B-Thinking 通過引入“思維鏈”(Chain-of-Thought)推理機制,在回答準確性、內容豐富度與可解釋性方面,全面超越傳統的非推理式視覺模型,在28項評測任務中有23項達到10B級別模型最佳,18項任務持平甚至超過8倍參數量的Qwen-2.5-VL-72B。
模型能力
GLM-4.1V-9B-Thinking 通過有效的混合訓練融合了豐富的多模態模型能力,包括但不限於:
典型示例
1. 理解圖表並解答問題
Prompt:請找出這張圖中年度利潤最高的公司,以及該公司的最大部門?
輸出:Sony has the highest annual profit at $6.3B. For Sony, the note states, “Media is Sony’s second - largest segment after game consoles.” Thus, the largest segment is game consoles.
2. 解答2025高考數學真題
Prompt:請幫我解決這個題目,給出詳細過程和答案
輸出:[解題過程略]
3. 準確認知圖形用戶界面並創建日程
Prompt:在APP中,幫我創建一個兩週後3點與史密斯博士的會議
輸出:Action: {"action_type": "click", "box_2d": [[27,840,122,885]]}
4. 生成與輸入圖片相似的前端網頁代碼
Prompt:請構建一個與輸入圖片相似的網頁並將其轉換爲 React 代碼。
輸出:生成的React代碼:
渲染後的網頁界面截圖:
5. 實驗現象原理解析
Prompt:這個現象發生的原因是什麼?爲什麼中間水杯會有水?
輸出:這個現象是由於**毛細現象(或毛細作用)**導致的。具體來說:
紙巾是多孔材料,其纖維之間的縫隙類似於“毛細管”。當左右兩個裝有不同顏色液體的杯子與中間的空杯之間用紙巾連接時,紙巾會利用自身吸水性和纖維間的毛細作用,將左側紅色液體和右側藍色液體通過纖維間隙輸送至中間的空杯中。隨着這種輸送過程的進行,中間的空杯逐漸被液體填滿,從而出現了“中間水杯有水”的現象。
模型原理1. 模型架構
GLM-4.1V-Thinking 模型架構由三個核心模塊組成:視覺編碼器(ViT Encoder)、多層感知機適配器(MLP Projector)以及語言解碼器(Language Decoder)。
我們選用 AIMv2-Huge 作爲視覺編碼器,GLM 作爲語言解碼器。在視覺編碼器部分,我們將原始的二維卷積替換爲三維卷積,從而實現對視頻輸入在時間維度上的下采樣,有效提升了處理效率。對於靜態圖像輸入,則通過複製幀的方式以保持輸入格式的一致性。
爲進一步增強模型對任意圖像分辨率和寬高比的適應能力,我們引入了兩項關鍵改進。
其一,融合二維旋轉位置編碼(2D-RoPE),使模型能夠穩定處理極端寬高比(如超過200:1)和超高分辨率(如4K以上)的圖像;
其二,爲保留ViT預訓練模型的原有能力,我們保留了其可學習的絕對位置嵌入,並通過雙三次插值方式在訓練過程中動態適配不同分辨率輸入。
在語言解碼器中,我們對原始的旋轉位置編碼(RoPE)進行了三維擴展(3D-RoPE)。這一設計顯著增強了模型在多模態輸入處理中的空間理解能力,同時保持了其在文本生成方面的原始性能。
2訓練流程
GLM-4.1V-Thinking 的訓練過程分爲三個階段:預訓練(Pretraining)、監督微調(SFT) 和 強化學習(RL)。
(1)預訓練階段
預訓練分爲兩個連續子階段:多模態預訓練與長上下文持續訓練。
多模態預訓練
初始階段旨在構建模型的通用多模態理解能力。我們使用兩路張量並行策略,對所有參數進行了 120,000 步訓練,序列長度爲 8,192,全局批量大小爲 1,536。訓練數據涵蓋圖像字幕、交錯圖文、OCR、Grounding、指令響應等多種模態。爲提高訓練效率,我們採用樣本拼接的數據打包策略,將可變長度樣本壓縮成接近最大長度的序列,充分利用顯存資源。
長上下文持續訓練
爲增強模型對高分辨率圖像、視頻序列及超長文本的處理能力,我們引入了更復雜的訓練數據,包括視頻幀序列和長度超過 8K tokens 的圖文混合內容。該階段將序列長度擴展至 32,768,採用混合並行策略(2路張量並行 + 4路上下文並行),並繼續訓練 10,000 步,保持全局批量大小爲 1,536。
(2)監督微調(SFT)
在微調階段,我們特別構建了一個高質量的 CoT(思維鏈)訓練集,用於強化模型的長篇因果推理能力。訓練樣本統一採用以下格式:
微調使用全參數訓練,序列長度爲 32,768,批量大小爲 32。訓練語料來自多個任務場景,包括數學題解、多輪對話、代理規劃與複雜指令跟隨,涵蓋圖文、多模態及純文本等不同類型。這一階段不僅提高了多模態推理能力,也保持了模型在語言理解與邏輯推演方面的穩定表現。
(3)課程採樣強化學習(RLCS)
在 SFT 基礎上,我們引入強化學習全面優化模型性能。
我們結合兩種方法:基於可驗證獎勵的強化學習(RLVR)和基於人類反饋的強化學習(RLHF),覆蓋多個關鍵任務維度:
通過課程採樣,在這些任務上開展由易而難的動態大規模強化學習訓練,模型在實用性、準確性和穩健性等方面取得了顯著提升。
更多信息請參考技術報告與開源代碼。