4000萬樣本煉出AI讀心術，刷新七榜SOTA，最強「人類偏好感應器」開源

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

新智元報道

編輯：定慧好睏

【新智元導讀】Skywork-Reward-V2全新發布！巧妙構建超高質量的千萬級人類偏好樣本，刷新七大評測基準SOTA表現。8款模型覆蓋6億至80億參數，小體積也能媲美大模型性能。

AI，到處都是AI！

早上起來，腦子裏突然縈繞起一個旋律，於是便對着AI隨便哼了幾句讓它找出來是哪首歌；到公司之後，打開電腦裏的AI，開始準備關於昨天工作的彙報。

只見你熟練地敲入：「根據以下這些文檔，寫一份總結，要專業、有邏輯、內容簡潔」。

沒過多久，一份涵蓋了各項要點，稍微修改一下即可提交的材料就新鮮出爐了。

但你有沒有想過，AI是如何理解人類定義的「專業」和「簡潔」的？

為什麼這麼抽象的詞，它能如此輕鬆地get到呢？

之所以AI能應對我們的百般刁難，是因為這背後有一個我們平時看不到的功臣——「獎勵模型」（Reward Model）。

所謂獎勵模型，就像一個「人類偏好感應器」——它能學會你喜歡什麼樣的輸出，打分並反饋給AI。

衆所周知，LLM在訓練中會用到RLHF，也就是「基於人類反饋的強化學習」。

但實際上，AI學習的並不是你的直接評價，而是先學會模擬你的打分標準（RM），再通過強化學習學着討好它。

也就是說，AI是在向「你的大腦裁判」請教該怎麼幹活。

在這個過程中扮演着關鍵作用的，便是獎勵模型。

OpenAI在論文中曾經證明，只要擁有一個學會人類偏好的獎勵模型，小規模的1.3B模型也能在人工評測上擊敗175B的巨無霸GPT-3。

論文地址：https://arxiv.org/pdf/2203.02155

正因如此，獎勵模型也被稱為「通用智能的基石」。

它的好壞，也就直接決定了AI到底能不能真的理解了人類的偏好。

然而，即使是當前最先進的開源獎勵模型，在大多數主流測評中表現得也不夠理想。尤其是讓模型能夠在多維度、多層次體現人類偏好。

畢竟人類還是太過於複雜了，很難單一的量化。

「如何才能捕捉到人類偏好中細緻而複雜的特徵」，可以說是獎勵模型的「終極使命」了。

自誕生之初，Skywork-Reward系列便聚焦於獎勵模型的核心使命——理解並對齊人類偏好。

2024年9月發布的V1版本開源以來，已在Hugging Face平台累計獲得75萬次下載，充分驗證了該系列在開源社區的實際價值與廣泛應用。

經過9個月的持續優化後，Skywork-Reward-V2今天重磅登場。

技術報告：https://arxiv.org/abs/2507.01352

GitHub：https://github.com/SkyworkAI/Skywork-Reward-V2

Hugging Face：https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84

Skywork-Reward-V2系列包含8個基於不同基座模型和不同大小的獎勵模型，參數從6億到80億。

Skywork-Reward-V2在多個能力維度上都能更好的理解人類，對齊人類，包括對人類偏好的通用對齊、客觀正確性、安全性、風格偏差的抵抗能力，以及best-of-N擴展能力。

實測後表明，該系列模型在七個主流獎勵模型評測基準上都刷新了SOTA。

Skywork-Reward-V2實測

話不多說，下面我們來就看看，Skywork-Reward-V2-Llama-3.1-8B在極為困難的RewardBench v2測試集上的實際預測結果，到底如何。

實例1：Skywork-Reward-V2-Llama-3.1-8B擁有判斷模型回覆是否精確循序指令的能力。

實例2：Skywork-Reward-V2-Llama-3.1-8B能夠選擇最安全和穩妥的回答，並對帶有泄露隱私的模型回覆給予低分。

實例3：Skywork-Reward-V2-Llama-3.1-8B在一定程度上能夠識別細微的事實性錯誤。

為何「死磕」獎勵模型？

目前不少獎勵模型都是「應試型學霸」——在特定基準任務表現非常好，但實際靠的是「死記硬背」。

對特定訓練集內的偏好精準拿捏，可一旦換個領域就抓瞎，題型一換、知識點打亂，就完全失去了判斷力。

圖左丨31個頂尖開源獎勵模型在RewardBench上的能力對比；圖右丨分數的相關性——很多模型在RewardBench上性能提升後，在其他Benchmark上成績卻「原地踏步」，這可能意味着過擬合現象。

為了克服這種「過擬合」和現象，近期興起了一種GRM（Generative Reward Model）生成式獎勵模型。

比如DeepSeek於2025年4月3日首次發布的論文，但這種提升比較有限。

論文地址：https://arxiv.org/pdf/2504.02495

與此同時，以OpenAI的o系列模型和DeepSeek-R1為代表的模型推動了「可驗證獎勵強化學習」（Reinforcement Learning with Verifiable Reward, RLVR）方法的發展。

論文地址：https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf?utm_source=chatgpt.com

然而，由於人類的偏好在本質上是複雜、細緻，且難以捕捉的。

因此，使用這些覆蓋範圍有限、標籤生成方式較為機械，或缺乏嚴格質量控制的偏好數據所訓練的獎勵模型，在優化開放式、主觀性較強的任務時就變得會十分「脆弱」。

那麼，如何才能更好捕捉人類偏好中那些複雜、難以琢磨的特性，如何讓RM更懂得人類，幫助訓練與人類更加對齊的模型呢？

巧妙構建千萬級人類偏好數據

得益於第一代模型在數據優化方面的經驗，團隊在V2獎勵模型的研發中，決定引入更加多樣且規模更大的真實人類偏好數據。

這樣就可以在提升數據規模的同時兼顧數據質量，從而讓獎勵模型「更懂人類偏好」。

為此，迄今為止規模最大，總計包含4,000萬對偏好樣本的偏好混合數據集——Skywork-SynPref-40M誕生了。

其核心創新，在於一條「人機協同、兩階段迭代」的數據篩選流水線。

階段一：人工構建小規模高質量偏好數據

首先，團隊構建了一個未經驗證的初始偏好池，並藉助LLM生成與偏好相關的輔助屬性，如任務類型、客觀性、爭議性等。

在此基礎上，人工標註者依照一套嚴格的驗證協議，並藉助外部工具與先進的大語言模型，對部分數據進行精細審核，最終構建出一個小規模但高質量的「金標準」數據集，作為後續數據生成與模型評估的依據。

隨後，Skywork以金標準數據中的偏好標籤為引導，結合LLM大規模生成高質量的「銀標準」數據，從而實現數據量的擴展。

團隊還進行了多輪迭代優化：每一輪中，訓練獎勵模型並根據其在金標準數據上的表現，識別模型的薄弱環節；

再通過檢索相似樣本並利用多模型一致性機制自動標註，進一步擴展和增強銀標準數據。

這一人機協同的閉環流程持續迭代，有效提升了獎勵模型對偏好的理解與判別能力。

階段二：全自動擴展大規模偏好數據

在獲得初步高質量模型之後，第二階段轉向自動化的大規模數據擴展。

此階段不再依賴人工審核，而是採用訓練完成的獎勵模型執行一致性過濾：

1. 若某個樣本的標籤與當前最優模型預測不一致，或模型置信度較低，則調用LLM重新自動標註；

2. 若樣本標籤與「金模型」（即僅使用人工數據訓練的模型）預測一致，且獲得當前模型或LLM支持，則可直接通過篩選。

藉助該機制，團隊從原始的4,000萬樣本中成功篩選出2,600萬條精選數據，在極大減少人工標註負擔的同時，實現了偏好數據在規模與質量之間的良好平衡。

小尺寸，大性能

準備好數據，下一步就是訓練了。

相比上一代Skywork-Reward，全新發布的Skywork-Reward-V2系列提供了基於Qwen3和LLaMA 3系列模型訓練的8個獎勵模型，參數規模覆蓋從6億至80億。

在RewardBench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等共七個主流獎勵模型評估基準上

Skywork-Reward-V2系列全面達到了SOTA。

挑戰模型規模限制

新一代模型可以用0.6B媲美上一代模型的27B水準。

最小模型Skywork-Reward-V2-Qwen3-0.6B，其整體性能已幾乎達到上一代最強模型Skywork-Reward-Gemma-2-27B-v0.2的平均水平。

更進一步，Skywork-Reward-V2-Qwen3-1.7B在平均性能上已超越當前開源獎勵模型的SOTA——INF-ORM-Llama3.1-70B。

而最大規模的Skywork-Reward-V2-Llama-3.1-8B，在所有主流基準測試中實現了全面超越，成為當前整體表現最優的開源獎勵模型。

Skywork-Reward-V2系列在RewardBench v2評測集上的表現

廣泛覆蓋人類偏好

在通用偏好評估基準（如RewardBench）上，Skywork-Reward-V2系列優於多個參數更大的模型（如70B）及最新的生成型獎勵模型（GRM），進一步驗證了高質量數據的重要性。

在客觀正確性評估方面（如JudgeBench和PPE Correctness），儘管整體略遜於少數專注於推理與編程的閉源模型（如OpenAI的o系列），但在知識密集型任務中表現突出，超越了所有其他開源模型。

此外，Skywork-Reward-V2在多項高級能力評估中均取得領先成績，展現了出色的泛化能力與實用性。包括：

Skywork-Reward-V2在PPE Correctness下五個子集的Best-of-N任務中皆達到最佳

在難度較高、專注評估模型對風格偏好的抗性的RM-Bench上，Skywork-Reward-V2系列也取得了SOTA

刷新SOTA

除了在性能評估中表現優異，Skywork還發現，在「人機協同、兩階段迭代」的數據構建流程中，經過精細篩選和過濾的偏好數據，會讓模型變得更加聰明。

這些「精挑細選」的數據在多輪迭代訓練中能夠持續有效地提升獎勵模型的整體性能，尤其是在第二階段的全自動數據擴展中表現尤為顯著。

相比之下，若僅盲目地擴充原始數據，非但無法提升初始性能，反而可能引入噪聲，帶來負面影響。

為進一步驗證數據質量的關鍵作用，Skywork在早期版本的1600萬條數據子集上進行實驗，結果顯示，僅使用其中1.8%（約29萬條）的高質量數據訓練一個8B規模模型，其性能就已超過當前的70B級SOTA獎勵模型。

這一結果再次印證了Skywork-SynPref數據集不僅在規模上處於領先地位，更在數據質量方面具有顯著優勢。

除了模型，還有真正的AGI理想

隨着技術演進與範式轉變，獎勵模型及其塑造機制，正快速演化為——甚至可說是唯一的——LLM訓練流程中的關鍵引擎。

而Skywork-Reward-V2的誕生，也將推動開源獎勵模型的發展，並更廣泛地促進了基於人類反饋強化學習（RLHF）研究的進步。

面向未來，獎勵模型——或者更廣義的統一獎勵系統——將成為AI基礎設施的核心。

RM將不只是行為評估器，而是智能系統穿越複雜現實的「指南針」，持續對齊人類價值，驅動AI向更高階、更有意義的方向進化。

而在這款Skywork-Reward-V2模型的背後，是已經完成「算力基礎設施—大模型算法—AI應用」全產業鏈佈局的崑崙萬維（維權）。

在AI應用落地方面，他們打造了衆多的AI智能體、AI短劇、和AI世界模型。

比如，

而最近備受關注的，既可以寫文檔、做PPT、編表格，還能一鍵生成網頁和播客，堪稱打工人的絕對利器。

同時，他們也在矢志不渝的追求AGI進步，深入模型的底層技術，探索AGI的核心邏輯。

不僅在推進AI基礎智能的進步方面，

而且還在空間智能領域推出了能生成虛擬世界，更讓你成為世界主宰的交互式創世引擎，和，單張圖即可以生3D世界。

此外崑崙萬維也始終致力於開源社區的構建，通過開放權重、技術報告、代碼倉庫，全球開發者、研究人員能夠站在巨人肩膀上，加速AGI的迭代。

不論是面向用戶的AI應用，還是探索AGI的底層技術積累，崑崙萬維的使命都是：實現通用人工智能，讓每個人更好地塑造和表達自我。

參考資料：

https://arxiv.org/abs/2507.01352

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

4000萬樣本煉出AI讀心術，刷新七榜SOTA，最強「人類偏好感應器」開源

熱議股票