炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
余天予,清華大學計算機系一年級博士生,導師爲清華大學自然語言處理實驗室劉知遠副教授。研究興趣主要包括高效多模態大模型、多模態大模型對齊和強化學習,在 CVPR、AAAI等人工智能領域的著名國際會議和期刊發表多篇學術論文,谷歌學術引用1000餘次。
Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表現充分展現了 RLVR(Reinforcement Learning with Verifiable Reward,基於可驗證獎勵的強化學習)的巨大潛力。
然而,現有方法的應用範圍侷限於數學和代碼等少數領域。面對自然語言固有的豐富多樣性,依賴規則驗證器的方法難以拓展到通用領域上。
針對這一關鍵挑戰,清華大學自然語言處理實驗室提出了一項關鍵性技術 —— 基於參考概率獎勵的強化學習(Reinforcement Learning with Reference Probability Reward,RLPR)。
這項技術通過 Prob-to-Reward 方法顯著提高了概率獎勵(Probability-based Reward, PR)的質量,相比基於似然度的基線方法取得了明顯更佳的性能優勢和訓練穩定性。
同時,RLPR 提出基於獎勵標準差的動態過濾機制,進一步提升強化學習的穩定性和性能提升。目前 RLPR 相關代碼、模型、數據、論文均已開源。
PR 爲何有效?挖掘模型的內在評估
研究團隊觀察到,大語言模型(LLM)在推理過程中對於參考答案的生成概率直接反映了模型對於本次推理的質量評估。也就是說,模型的推理越正確,其生成參考答案的概率通常就越高。
在論文中,研究團隊給出了一個具體示例:當模型在輸出 o2 中錯誤地把選項 A 排在了第二位時,可以觀察到參考答案在第二個正確選項位置上的生成概率出現了顯著下降。這一現象清晰地表明,PR 能夠精準捕捉模型對於自身推理質量的判斷,並且與模型推理的正確性表現出高度相關性。
PR 示例,更深的顏色代表更大的輸出概率
RLPR 核心特點
領域無關的高效獎勵生成
現有 RLVR 方法通常需要投入大量的人力和工程資源,爲每個領域編寫特定的驗證規則,相比之下,RLPR 僅需要簡單的一次前向傳播(forward pass)就可以生成獎勵分數。通過使用參考答案的生成概率均值作爲獎勵。這種方法能夠有效地應對自然語言固有的複雜多樣性。
如下圖所示(右側示例),基於規則匹配的方式無法識別出 y2 和 y3 和參考答案語義等價,而 RLPR 的 PR 機制準確地給予了這兩個答案更高的分數。
RLPR 與現有 RLVR 範式的對比
獎勵糾偏和動態過濾
基礎的 PR 已經呈現出和回答質量很高的相關性,但是仍然受到問題和參考答案風格等無關因素的干擾(即存在偏差)。爲此,研究團隊提出構建一個不包含思維鏈過程(z)的對照獎勵,並通過做差的方式去除無關因素對於分數的影響,實現獎勵糾偏。
傳統基於準確率(Accuracy Filtering)的樣本過濾方法難以適用於連續的 PR 值。RLPR 提出基於獎勵標準差的動態過濾機制,保留那些取得較高獎勵標準差的樣本用於訓練,有效提升了訓練的穩定性和效果。考慮到訓練過程中獎勵的標準差會持續變化,RLPR 進一步採用指數移動平均(EMA)的方式持續動態更新過濾閾值。
可靠的獎勵質量和框架魯棒性
研究團隊通過 ROC-AUC 指標定量評估了不同來源獎勵的質量。結果表明,PR 在 0.5B 規模即取得了顯著優於規則獎勵和驗證器模型獎勵的質量。同時,通用領域獎勵質量隨着模型能力的增強可以進一步提高到 0.91 水平。
PR 獎勵質量優於規則獎勵和驗證器模型獎勵
爲了驗證框架的魯棒性,研究團隊使用多種不同的訓練模板結合 RLPR 訓練 Qwen2.5 3B 模型,並觀察到 RLPR 在不同訓練模板上都可以取得穩定的性能提升。
RLPR 對不同訓練模板的魯棒性
研究團隊還進一步在 Gemma、Llama 等更多系列的基座模型上進行實驗,驗證 RLPR 框架對於不同基座模型均可以穩定提升模型的推理能力,並超過了使用規則獎勵的 RLVR 基線。
RLPR 在 Gemma、Llama、Qwen 等不同基座模型上均穩定提升推理能力
總結
RLPR 提出了創新的 Prob-to-Reward 獎勵機制,解決了現有 RLVR 範式的領域依賴問題。通過在 Gemma、Llama、Qwen 等主流模型系列上的廣泛驗證,RLPR 不僅證明了其卓越的有效性和相對於傳統規則獎勵的顯著優勢,更在推動強化學習(RL)向更大規模(scaling)發展的道路上,邁出了堅實而有力的一步。
更多研究細節,可參考原論文。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。