強化學習新發現:無需數學樣本,僅遊戲訓練AI推理大增

市場資訊
06-24

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

第一作者謝雲飛是萊斯大學博士生,導師爲通訊作者魏晨教授,研究方向包括多模態生成與理解。

Project Leader肖俊飛是約翰斯・霍普金斯大學博士生,導師爲 Bloomberg Distinguished Professor Alan Yuille。

第二作者馬崟淞是約翰斯・霍普金斯大學博士生。

第三作者蘭石懿是英偉達 Research Scientist。

最近,強化學習領域出現了一個顛覆性發現:研究人員不再需要大量數學訓練樣本,僅僅讓 AI 玩簡單遊戲,就能顯著提升其數學推理能力。

此前已有研究發現,即使不提供標準答案,僅用數學問題進行強化學習也能提高模型性能,這讓人們開始重新思考強化學習的訓練方式。而來自萊斯大學、約翰斯・霍普金斯大學和英偉達的研究團隊更進一步:他們讓多模態大語言模型 (MLLM) 玩貪喫蛇等簡單遊戲,無需任何數學或多學科訓練數據,就顯著提升了模型的多模態推理能力。研究團隊提出了 ViGaL (Visual Game Learning) 方法,在多個主流視覺數學基準測試和MMMU系列基準測試中,超越此前在數學等領域內數據上訓練的強化學習模型。

不用數學樣本,遊戲訓練在數學基準取得突破

近期研究表明,相比監督微調(SFT),強化學習(RL)往往能實現更強的 “舉一反三” 的跨領域泛化能力。以往的工作已經證明,在數學問題訓練的模型能夠擴展推理到物理問題,經過導航訓練的智能體能夠成功適應全新環境。然而,這些成功的泛化案例通常仍侷限在單一領域內,源任務與泛化的目標任務依然屬於同一類型。

圖 1: 我們發現,只在例如貪喫蛇這種遊戲上進行強化學習訓練,模型就能湧現出領域外的泛化能力,在數學、多學科等多個任務上提高性能。

這篇工作的突破在於實現了更強形式的跨域泛化:從遊戲領域完全遷移到數學推理、空間推理和多學科推理等領域。研究團隊用 7B 參數的 Qwen2.5-VL 模型進行訓練,發現僅通過強化學習訓練模型玩貪喫蛇和旋轉游戲,就能在多個基準測試中實現了顯著提升:

圖 2: 不使用數學或者多學科樣本,僅通過遊戲訓練,模型在數學推理基準上平均提升 2.9%(左圖),在多學科推理基準上平均提升 2.0%(右圖),超過此前專門在數學或者多學科數據上訓練的強化學習方法。

爲什麼遊戲訓練如此有效?

圖 3: 我們在貪喫蛇遊戲和旋轉游戲上利用強化學習進行訓練。在每個遊戲裏面,模型會接收圖片和文本形式的遊戲環境作爲輸入,遵循遊戲指令進行推理,抉擇一個動作在遊戲環境裏執行。執行後會從環境獲得獎勵,用於進行強化學習。通過在遊戲中訓練,模型獲得了推理能力,並且能遷移至下游的數學和多學科等任務。

爲什麼玩遊戲能提升數學能力?這個發現其實並不違背認知科學的基本規律。

回想一下我們自己的成長過程:小時候通過搭積木學會了空間概念,通過躲貓貓理解了位置關係,通過各種益智遊戲培養了邏輯思維。兒童正是通過這些看似 "玩耍" 的活動,逐步構建起抽象思維的基礎 —— 模式識別、空間推理、因果推斷。

認知科學研究也證實了這一點:遊戲常被用作探索人類心智的實驗平臺。研究人員通過 "四子連珠" 遊戲研究規劃能力,通過 "虛擬工具" 遊戲探索問題解決的認知機制。

基於這樣的理論啓發,研究團隊巧妙地設計了兩款互補的訓練遊戲:

貪喫蛇遊戲:這是一個經典的策略決策遊戲。在 10×10 的網格上,模型需要控制蛇的移動,避免撞牆、撞到自己或對手,同時儘可能多地收集蘋果。遊戲培養的核心能力包括路徑規劃、避障決策和空間導航,這些技能直接對應數學中的座標幾何和函數圖像理解。

旋轉游戲:這是研究團隊自主設計的 3D 空間推理遊戲。模型需要觀察同一 3D 物體的兩個視角 —— 初始視角和旋轉後視角,判斷物體旋轉了 90 度還是 180 度。這個遊戲專門訓練空間幾何理解能力,直接對應角度和長度相關的數學推理問題。

兩款遊戲的設計哲學互補:貪喫蛇主要提升 2D 座標相關的數學表現,旋轉游戲則更適合角度和長度推理。實驗證實,聯合訓練兩款遊戲比單獨訓練效果更佳,展現了遊戲多樣性的可擴展潛力。

結語:合成任務的新時代

ViGaL 的成功揭示了一個潛在的新趨勢:當高質量人類數據枯竭,簡單任務性能飽和的時候,精心設計的遊戲,作爲一種合成任務,可能爲多模態推理能力的發展開闢新道路。

與傳統的直接訓練方法相比,這種遊戲化的訓練範式展現出獨特的優勢:

更重要的是,ViGaL 可能揭示了一個樸素但深刻的道理:在直接學習目標任務之外,培養底層的通用推理能力,也許同樣有助於模型性能的提升。就像我們不只是通過死記硬背數學公式來培養數學思維,而是通過各種思維訓練來發展抽象推理能力一樣。

在 Scaling Law 可能逐漸面臨困境的今天,ViGaL 用一個簡單而優雅的想法提醒我們:有時候,讓 AI"玩遊戲" 可能比讓它 "刷題" 更有效。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10