復旦聯合南洋理工提出基於視覺Grounding的多輪強化學習框架MGPO

市場資訊
07-21

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:機器之心Pro)

本文的主要作者來自復旦大學和南洋理工大學 S-Lab,研究方向聚焦於視覺推理與強化學習優化。

先進的多模態大模型(Large Multi-Modal Models, LMMs)通常基於大語言模型(Large Language Models, LLMs)結合原生分辨率視覺 Transformer(NaViT)構建。然而,這類模型在處理高分辨率圖像時面臨瓶頸:高分辨率圖像會轉化爲海量視覺 Token,其中大部分與任務無關,既增加了計算負擔,也干擾了模型對關鍵信息的捕捉。

爲解決這一問題,復旦大學、南洋理工大學的研究者提出一種基於視覺 Grounding 的多輪強化學習方法 MGPO,使 LMM 能在多輪交互中根據問題,自動預測關鍵區域座標,裁剪子圖像並整合歷史上下文,最終實現高分辨率圖像的精準推理。相比監督微調(SFT)需要昂貴的 Grounding 標註作爲監督,MGPO 證明了在強化學習(RL)範式中,即使沒有 Grounding 標註,模型也能從 “最終答案是否正確”的反饋中,湧現出魯棒的視覺 Grounding 能力。

MGPO 的核心創新點包括: 1)自上而下的可解釋視覺推理:賦予了 LMMs 針對高分辨率場景的 “自上而下、問題驅動” 視覺搜索機制,提供可解釋的視覺 Grounding 輸出; 2)突破最大像素限制:即使因視覺 Token 數受限導致高分辨率圖像縮放後模糊,模型仍能準確識別相關區域座標,從原始高分辨率圖像中裁剪出清晰子圖像用於後續分析; 3)無需額外 Grounding 標註:可直接在標準 VQA 數據集上進行 RL 訓練,僅基於答案監督就能讓模型湧現出魯棒的視覺 Grounding 能力。

圖 1:基於 MGPO 訓練的模型性能展示,在處理高分辨率圖像時,模型會根據問題輸出關鍵區域座標,然後自動觸發圖像裁剪函數,返回清晰的子圖幫助模型回答問題。

介紹

當前,以 Qwen2.5-VL 爲代表的多模態大模型(LMMs)通常基於強大的語言模型(如 Qwen2.5)結合外部原生分辨率視覺 Transformer(NaViT)構建。然而,這類模型在處理高分辨圖像任務時面臨挑戰:高分辨率圖像會轉換成海量視覺 Token,其中大部分與任務無關,既增加了計算負擔,也干擾了模型對關鍵信息的捕捉。

相比之下,在處理高分辨率真實場景時,人類視覺系統會採用任務驅動的視覺搜索策略,首先定位,再仔細審視關鍵興趣區域。受這一生物機制啓發,我們嘗試通過視覺 Grounding 爲 LMMs 賦予類似的視覺搜索能力,使其聚焦於圖像中的關鍵區域。

但傳統視覺 Grounding 模型需依賴大量 Grounding 標註進行訓練,而此類標註成本較高。有沒有可能不需要額外 Grounding 標註,僅通過最終答案的正確性對模型進行獎勵,就讓模型自動學會 “找重點”?

我們的答案是:可以。本文提出基於視覺 Grounding 的多輪強化學習算法 MGPO(Multi-turn Grounding-based Policy Optimization),使 LMMs 能在多輪交互中自動預測關鍵區域座標、裁剪子圖像並整合歷史上下文,最終實現高分辨率圖像的精準推理。我們的實驗證明,即使沒有任何 Grounding 標註,模型也能從 “最終答案是否正確” 的獎勵反饋中,湧現出魯棒的視覺定位能力

方法概覽

MGPO 的核心思想是模擬人類的多步視覺推理過程:給定高分辨率圖像和問題,模型先預測關鍵區域的座標,裁剪出子圖像;再結合原始圖像和子圖像的上下文,進行下一步推理。

下圖比較了 MGPO 與 SFT、GRPO 的區別,MGPO 可以僅靠正確答案的監督信息,湧現魯棒的視覺 Grounding 能力。

解決 “冷啓動”:固定兩回合對話模板

在實際訓練中,我們發現 LLMs 在 Rollout 過程中,難以自主在中間過程調用 Grounding 能力,使得 RL 訓練過程緩慢。爲了解決模型的冷啓動問題,我們設計了一個固定兩輪對話模板(如下圖所示),在第一輪對話中明確要求模型只輸出與問題相關的區域座標,在第二輪對話中再要求模型回答問題。

處理高分辨率:座標歸一化與子圖像裁剪

受限於模型能夠處理的視覺 Token 數量,高分辨率圖往往會被縮放成模糊圖像,導致細節丟失。如下圖所示,當處理縮放圖像時,MGPO 會先定位到與問題相關的區域,再從原始圖像中裁剪出清晰的子圖,確保模型能夠正確回答相關問題。

實驗結果

1.不同範式對比

基於相同訓練數據下,我們對比了 SFT、GRPO、MGPO 在兩個高分辨率圖像 Benchmark 的表現:MME-Realworld(In-Distribution)和 V* Bench (Out of Distribution)。實驗結果顯示,GRPO 相較於 SFT 並未帶來顯著性能提升,這與之前多模態數學任務的研究結論相反。我們推測,對於高分辨率視覺中心任務,核心挑戰在於讓模型感知細粒度圖像細節,而非進行復雜的長鏈推理。

相比之下,MGPO 取得了顯著提升,相比 GRPO 在 MME-Realworld、V* Bench 分別提升 5.4%、5.2%。我們還將結果與 OpenAI 的 o1、GPT-4o 在 V* Bench 上進行了對比,儘管我們的模型僅基於 7B 模型、用 2.1 萬樣本訓練,經過 MGPO 訓練的模型仍超過了這兩個商業大模型。

2.RL 訓練過程中視覺 Grounding 能力的湧現

我們統計了 GRPO 與 MGPO 兩種 RL 框架訓練過程中,模型生成的有效 Grounding 座標比例。結果顯示,MGPO 的有效比例隨訓練迭代呈現顯著上升趨勢,證明了 MGPO 僅需利用標準 VQA 數據(無需額外 Grounding 標註),就能在 RL 訓練過程中自主湧現出穩定、精準的視覺 Grounding 能力。

總結

MGPO 通過多輪強化學習算法激活視覺 Grounding 能力,有效提升了多模態大模型處理高分辨率圖像時的 “視覺 Token 冗餘” 和 “關鍵信息丟失” 等問題。同時,實驗證明了,相比 SFT 需要昂貴的 Grounding 標註,RL 算法可以僅通過最終答案的獎勵反饋,使得模型自主湧現出魯棒的 Grounding 能力,避免了對昂貴 Grounding 標註的依賴。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10