4000萬樣本煉出AI讀心術,刷新七榜SOTA,最強“人類偏好感應器”開源

市場資訊
07/04

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

新智元報道

編輯:定慧 好睏

【新智元導讀】Skywork-Reward-V2全新發布!巧妙構建超高質量的千萬級人類偏好樣本,刷新七大評測基準SOTA表現。8款模型覆蓋6億至80億參數,小體積也能媲美大模型性能。

AI,到處都是AI!

早上起來,腦子裏突然縈繞起一個旋律,於是便對着AI隨便哼了幾句讓它找出來是哪首歌;到公司之後,打開電腦裏的AI,開始準備關於昨天工作的彙報。

只見你熟練地敲入:“根據以下這些文檔,寫一份總結,要專業、有邏輯、內容簡潔”。

沒過多久,一份涵蓋了各項要點,稍微修改一下即可提交的材料就新鮮出爐了。

但你有沒有想過,AI是如何理解人類定義的“專業”和“簡潔”的?

爲什麼這麼抽象的詞,它能如此輕鬆地get到呢?

之所以AI能應對我們的百般刁難,是因爲這背後有一個我們平時看不到的功臣——“獎勵模型”(Reward Model)

所謂獎勵模型,就像一個“人類偏好感應器”——它能學會你喜歡什麼樣的輸出,打分並反饋給AI。

衆所周知,LLM在訓練中會用到RLHF,也就是“基於人類反饋的強化學習”。

但實際上,AI學習的並不是你的直接評價,而是先學會模擬你的打分標準(RM),再通過強化學習學着討好它。

也就是說,AI是在向“你的大腦裁判”請教該怎麼幹活。

在這個過程中扮演着關鍵作用的,便是獎勵模型

OpenAI在論文中曾經證明,只要擁有一個學會人類偏好的獎勵模型,小規模的1.3B模型也能在人工評測上擊敗175B的巨無霸GPT-3。

論文地址:https://arxiv.org/pdf/2203.02155

正因如此,獎勵模型也被稱爲“通用智能的基石”

它的好壞,也就直接決定了AI到底能不能真的理解了人類的偏好。

然而,即使是當前最先進的開源獎勵模型,在大多數主流測評中表現得也不夠理想。尤其是讓模型能夠在多維度、多層次體現人類偏好。

畢竟人類還是太過於複雜了,很難單一的量化。

“如何才能捕捉到人類偏好中細緻而複雜的特徵”,可以說是獎勵模型的“終極使命”了。

自誕生之初,Skywork-Reward系列便聚焦於獎勵模型的核心使命——理解並對齊人類偏好。

2024年9月發佈的V1版本開源以來,已在Hugging Face平臺累計獲得75萬次下載,充分驗證了該系列在開源社區的實際價值與廣泛應用。

經過9個月的持續優化後,Skywork-Reward-V2今天重磅登場。

技術報告:https://arxiv.org/abs/2507.01352

GitHub:https://github.com/SkyworkAI/Skywork-Reward-V2

Hugging Face:https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84

Skywork-Reward-V2系列包含8個基於不同基座模型和不同大小的獎勵模型,參數從6億到80億。

Skywork-Reward-V2在多個能力維度上都能更好的理解人類,對齊人類,包括對人類偏好的通用對齊、客觀正確性、安全性、風格偏差的抵抗能力,以及best-of-N擴展能力。

實測後表明,該系列模型在七個主流獎勵模型評測基準上都刷新了SOTA。

Skywork-Reward-V2實測

話不多說,下面我們來就看看,Skywork-Reward-V2-Llama-3.1-8B在極爲困難的RewardBench v2測試集上的實際預測結果,到底如何。

實例1:Skywork-Reward-V2-Llama-3.1-8B擁有判斷模型回覆是否精確循序指令的能力

實例2:Skywork-Reward-V2-Llama-3.1-8B能夠選擇最安全和穩妥的回答,並對帶有泄露隱私的模型回覆給予低分。

實例3:Skywork-Reward-V2-Llama-3.1-8B在一定程度上能夠識別細微的事實性錯誤。

爲何“死磕”獎勵模型?

目前不少獎勵模型都是“應試型學霸”——在特定基準任務表現非常好,但實際靠的是“死記硬背”

對特定訓練集內的偏好精準拿捏,可一旦換個領域就抓瞎,題型一換、知識點打亂,就完全失去了判斷力。

圖左丨31個頂尖開源獎勵模型在RewardBench上的能力對比;圖右丨分數的相關性——很多模型在RewardBench上性能提升後,在其他Benchmark上成績卻“原地踏步”,這可能意味着過擬合現象。

爲了克服這種“過擬合”和現象,近期興起了一種GRM(Generative Reward Model)生成式獎勵模型。

比如DeepSeek於2025年4月3日首次發佈的論文,但這種提升比較有限。

論文地址:https://arxiv.org/pdf/2504.02495

與此同時,以OpenAI的o系列模型和DeepSeek-R1爲代表的模型推動了“可驗證獎勵強化學習”(Reinforcement Learning with Verifiable Reward, RLVR)方法的發展。

論文地址:https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf?utm_source=chatgpt.com

然而,由於人類的偏好在本質上是複雜、細緻,且難以捕捉的。

因此,使用這些覆蓋範圍有限、標籤生成方式較爲機械,或缺乏嚴格質量控制的偏好數據所訓練的獎勵模型,在優化開放式、主觀性較強的任務時就變得會十分“脆弱”。

那麼,如何才能更好捕捉人類偏好中那些複雜、難以琢磨的特性,如何讓RM更懂得人類,幫助訓練與人類更加對齊的模型呢?

巧妙構建千萬級人類偏好數據

得益於第一代模型在數據優化方面的經驗,團隊在V2獎勵模型的研發中,決定引入更加多樣且規模更大的真實人類偏好數據。

這樣就可以在提升數據規模的同時兼顧數據質量,從而讓獎勵模型“更懂人類偏好”。

爲此,迄今爲止規模最大,總計包含4,000萬對偏好樣本的偏好混合數據集——Skywork-SynPref-40M誕生了。

其核心創新,在於一條“人機協同、兩階段迭代”的數據篩選流水線。

階段一:人工構建小規模高質量偏好數據

首先,團隊構建了一個未經驗證的初始偏好池,並藉助LLM生成與偏好相關的輔助屬性,如任務類型、客觀性、爭議性等。

在此基礎上,人工標註者依照一套嚴格的驗證協議,並藉助外部工具與先進的大語言模型,對部分數據進行精細審覈,最終構建出一個小規模但高質量的金標準數據集,作爲後續數據生成與模型評估的依據。

隨後,Skywork以金標準數據中的偏好標籤爲引導,結合LLM大規模生成高質量的銀標準數據,從而實現數據量的擴展。

團隊還進行了多輪迭代優化:每一輪中,訓練獎勵模型並根據其在金標準數據上的表現,識別模型的薄弱環節;

再通過檢索相似樣本並利用多模型一致性機制自動標註,進一步擴展和增強銀標準數據。

這一人機協同的閉環流程持續迭代,有效提升了獎勵模型對偏好的理解與判別能力。

階段二:全自動擴展大規模偏好數據

在獲得初步高質量模型之後,第二階段轉向自動化的大規模數據擴展。

此階段不再依賴人工審覈,而是採用訓練完成的獎勵模型執行一致性過濾:

1. 若某個樣本的標籤與當前最優模型預測不一致,或模型置信度較低,則調用LLM重新自動標註;

2. 若樣本標籤與“金模型”(即僅使用人工數據訓練的模型)預測一致,且獲得當前模型或LLM支持,則可直接通過篩選。

藉助該機制,團隊從原始的4,000萬樣本中成功篩選出2,600萬條精選數據,在極大減少人工標註負擔的同時,實現了偏好數據在規模與質量之間的良好平衡

小尺寸,大性能

準備好數據,下一步就是訓練了。

相比上一代Skywork-Reward,全新發布的Skywork-Reward-V2系列提供了基於Qwen3LLaMA 3系列模型訓練的8獎勵模型參數規模覆蓋從6億至80億

在RewardBench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等共七個主流獎勵模型評估基準上

Skywork-Reward-V2系列全面達到了SOTA

挑戰模型規模限制

新一代模型可以用0.6B媲美上一代模型的27B水準。

最小模型Skywork-Reward-V2-Qwen3-0.6B,其整體性能已幾乎達到上一代最強模型Skywork-Reward-Gemma-2-27B-v0.2的平均水平。

更進一步,Skywork-Reward-V2-Qwen3-1.7B在平均性能上已超越當前開源獎勵模型的SOTA——INF-ORM-Llama3.1-70B

而最大規模的Skywork-Reward-V2-Llama-3.1-8B,在所有主流基準測試中實現了全面超越,成爲當前整體表現最優的開源獎勵模型。

Skywork-Reward-V2系列在RewardBench v2評測集上的表現

廣泛覆蓋人類偏好

在通用偏好評估基準(如RewardBench)上,Skywork-Reward-V2系列優於多個參數更大的模型(如70B)及最新的生成型獎勵模型(GRM),進一步驗證了高質量數據的重要性。

在客觀正確性評估方面(如JudgeBench和PPE Correctness),儘管整體略遜於少數專注於推理與編程的閉源模型(如OpenAI的o系列),但在知識密集型任務中表現突出,超越了所有其他開源模型。

此外,Skywork-Reward-V2在多項高級能力評估中均取得領先成績,展現了出色的泛化能力與實用性。包括:

Skywork-Reward-V2在PPE Correctness下五個子集的Best-of-N任務中皆達到最佳

在難度較高、專注評估模型對風格偏好的抗性的RM-Bench上,Skywork-Reward-V2系列也取得了SOTA

刷新SOTA

除了在性能評估中表現優異,Skywork還發現,在“人機協同、兩階段迭代”的數據構建流程中,經過精細篩選和過濾的偏好數據,會讓模型變得更加聰明

這些“精挑細選”的數據在多輪迭代訓練中能夠持續有效地提升獎勵模型的整體性能,尤其是在第二階段的全自動數據擴展中表現尤爲顯著。

相比之下,若僅盲目地擴充原始數據,非但無法提升初始性能,反而可能引入噪聲,帶來負面影響。

爲進一步驗證數據質量的關鍵作用,Skywork在早期版本的1600萬條數據子集上進行實驗,結果顯示,僅使用其中1.8%(約29萬條)的高質量數據訓練一個8B規模模型,其性能就已超過當前的70BSOTA獎勵模型

這一結果再次印證了Skywork-SynPref數據集不僅在規模上處於領先地位,更在數據質量方面具有顯著優勢。

除了模型,還有真正的AGI理想

隨着技術演進與範式轉變,獎勵模型及其塑造機制,正快速演化爲——甚至可說是唯一的——LLM訓練流程中的關鍵引擎。

而Skywork-Reward-V2的誕生,也將推動開源獎勵模型的發展,並更廣泛地促進了基於人類反饋強化學習(RLHF)研究的進步。

面向未來,獎勵模型——或者更廣義的統一獎勵系統——將成爲AI基礎設施的核心。

RM將不只是行爲評估器,而是智能系統穿越複雜現實的“指南針”,持續對齊人類價值,驅動AI向更高階、更有意義的方向進化。

而在這款Skywork-Reward-V2模型的背後,是已經完成“算力基礎設施—大模型算法AI應用”全產業鏈佈局崑崙萬維(維權)。

在AI應用落地方面,他們打造了衆多的AI智能體、AI短劇、和AI世界模型。

比如,

而最近備受關注的,既可以寫文檔、做PPT、編表格,還能一鍵生成網頁和播客,堪稱打工人的絕對利器。

同時,他們也在矢志不渝的追求AGI進步,深入模型的底層技術,探索AGI的核心邏輯。

不僅在推進AI基礎智能的進步方面,

而且還在空間智能領域推出了能生成虛擬世界,更讓你成爲世界主宰的交互式創世引擎,和,單張圖即可以生3D世界。

此外崑崙萬維也始終致力於開源社區的構建,通過開放權重、技術報告、代碼倉庫,全球開發者、研究人員能夠站在巨人肩膀上,加速AGI的迭代。

不論是面向用戶的AI應用,還是探索AGI的底層技術積累,崑崙萬維的使命都是:實現通用人工智能,讓每個人更好地塑造和表達自我。

參考資料:

https://arxiv.org/abs/2507.01352

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10