監督學習也能反思?清華英偉達提出隱式負向策略爆炸提升數學能力

市場資訊
06-22

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

監督學習也能像強化學習一樣進行“自我反思”了。

清華大學與英偉達、斯坦福聯合提出新的監督學習方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎上通過構造一個“隱式負向模型” 來額外利用負向數據進行訓練。

這並不意味着使用“差數據”進行訓練,而是在已知的模型計算結果前提下,通過負向數據訓練正向模型,即“隱式負向策略(Implicit Negative Policy)”

這一策略彌合了監督學習和強化學習的差距,使得兩者性能基本持平。

△架構圖語言模型在線強化算法光譜圖

更讓人驚訝的是,NFT損失函數梯度和GRPO在On-Policy條件下是等價的!這意味着,GRPO中人爲經驗設置的“Group Relative Normalization”方案,可以直接通過理論推導自然得出。

NFT定義了一個在線強化過程:

1.數據採樣:語言模型自己產生大量數學問題答案,通過一個01獎勵函數,把答案分爲正確和錯誤兩類,並統計每個問題回答準確率[數學公式]。

2.隱式策略建模:利用原始模型和待訓練正向模型,構造一個隱式負向策略來建模負向數據。

3.策略優化:在正確數據上,直接監督訓練正向策略模型;在錯誤數據上,通過用隱式負向策略擬合建模,達到直接優化正向策略模型的目的。

考慮這樣一個監督學習基線:Rejection sampling Finetuning(RFT)。每一輪,研究團隊讓模型自己產生大量數學問題答案,通過一個01獎勵函數,把所有模型產生的錯誤答案丟棄,僅在高質量正向數據上進行監督訓練。

RFT中,研究團隊每一輪的訓練目標是:

問題關鍵在於:能否在負向數據上監督訓練,也同樣得到上面的“正向策略”呢?

乍看上去是不可能的,在負向數據上訓練只能得到沒有用的“負向策略”。

然而,問題的轉折點在於,數據是已知模型在線採樣的,也就是正負向數據分佈的和是已知的。由貝葉斯公式可知以下線性關係:

這說明,假設真能在負向數據上學習到一個“負向策略”,可以把這個負向策略和原始生成策略結合,“計算”得出想要的正向模型。

在實際操作中,不是真的去學習一個“差模型”。研究團隊提出“隱式負向策略”(Implicit Negative Policy),可以直接在負向數據上訓練正向策略。可用以下表達式來參數化隱式負向模型:

其中rq表示模型在回答問題q時的正確率,現實中由於模型對一個問題會產生多個回答,我們可以很容易地估計rq。這裏表明隱式負向策略不是一個靜態的模型,而是基於不同難度的問題動態構造的

因此,NFT損失函數就可以表達爲:

對以上損失函數直接求導,研究團隊在嚴格On-policy條件下得到和GRPO等價的梯度表達式。

這暗示了監督學習和強化學習或許存在深層的聯繫,也直接說明NFT是一個絕對可靠的算法,最差也是退回On-Policy訓練和GRPO等價。

結果:監督強化學習方案性能持平,負向反饋在大模型中優勢更加明顯

NFT和當下性能最優的強化學習算法性能持平,部分場景下可能更有優勢(可以在現有監督學習框架基礎上簡單實現)。

與主流RLHF算法對比,NFT7B性能超過GRPO、DAPO;32B性能和DAPO基本持平。研究團隊還觀察到,模型越大,NFT和RFT算法性能差異越明顯。這暗示了負向反饋在大模型中承擔更重要的作用。

和其他已有的基於Qwen-7B zero style訓練模型相比,NFT達到最高的數學平均成績。

作爲一個純監督學習算法,NFT不依賴任何外界數據,可實現數學能力的大幅提升。

△架構圖NFT在Qwen-7B(左)和32B模型(右)上性能表現及對比

研究團隊還發現NFT算法在不損失性能條件下有利於模型熵增加,鼓勵模型充分探索。

NFT算法指出並彌合了強化學習和監督學習的本質差異,這暗示兩套機器學習理論存在深層聯繫,可以幫助研究者重新定位、思考和放大強化訓練的本質優勢。

項目網頁: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/

論文鏈接: https://arxiv.org/pdf/2505.18116

項目代碼: https://github.com/NVlabs/NFT

— 完 —

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10