炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
新智元報道
編輯:定慧 好睏
【新智元導讀】Skywork-Reward-V2全新發布!巧妙構建超高質量的千萬級人類偏好樣本,刷新七大評測基準SOTA表現。8款模型覆蓋6億至80億參數,小體積也能媲美大模型性能。
AI,到處都是AI!
早上起來,腦子裏突然縈繞起一個旋律,於是便對着AI隨便哼了幾句讓它找出來是哪首歌;到公司之後,打開電腦裏的AI,開始準備關於昨天工作的彙報。
只見你熟練地敲入:“根據以下這些文檔,寫一份總結,要專業、有邏輯、內容簡潔”。
沒過多久,一份涵蓋了各項要點,稍微修改一下即可提交的材料就新鮮出爐了。
但你有沒有想過,AI是如何理解人類定義的“專業”和“簡潔”的?
爲什麼這麼抽象的詞,它能如此輕鬆地get到呢?
之所以AI能應對我們的百般刁難,是因爲這背後有一個我們平時看不到的功臣——“獎勵模型”(Reward Model)。
所謂獎勵模型,就像一個“人類偏好感應器”——它能學會你喜歡什麼樣的輸出,打分並反饋給AI。
衆所周知,LLM在訓練中會用到RLHF,也就是“基於人類反饋的強化學習”。
但實際上,AI學習的並不是你的直接評價,而是先學會模擬你的打分標準(RM),再通過強化學習學着討好它。
也就是說,AI是在向“你的大腦裁判”請教該怎麼幹活。
在這個過程中扮演着關鍵作用的,便是獎勵模型。
OpenAI在論文中曾經證明,只要擁有一個學會人類偏好的獎勵模型,小規模的1.3B模型也能在人工評測上擊敗175B的巨無霸GPT-3。
論文地址:https://arxiv.org/pdf/2203.02155
正因如此,獎勵模型也被稱爲“通用智能的基石”。
它的好壞,也就直接決定了AI到底能不能真的理解了人類的偏好。
然而,即使是當前最先進的開源獎勵模型,在大多數主流測評中表現得也不夠理想。尤其是讓模型能夠在多維度、多層次體現人類偏好。
畢竟人類還是太過於複雜了,很難單一的量化。
“如何才能捕捉到人類偏好中細緻而複雜的特徵”,可以說是獎勵模型的“終極使命”了。
自誕生之初,Skywork-Reward系列便聚焦於獎勵模型的核心使命——理解並對齊人類偏好。
2024年9月發佈的V1版本開源以來,已在Hugging Face平臺累計獲得75萬次下載,充分驗證了該系列在開源社區的實際價值與廣泛應用。
經過9個月的持續優化後,Skywork-Reward-V2今天重磅登場。
技術報告:https://arxiv.org/abs/2507.01352
GitHub:https://github.com/SkyworkAI/Skywork-Reward-V2
Hugging Face:https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84
Skywork-Reward-V2系列包含8個基於不同基座模型和不同大小的獎勵模型,參數從6億到80億。
Skywork-Reward-V2在多個能力維度上都能更好的理解人類,對齊人類,包括對人類偏好的通用對齊、客觀正確性、安全性、風格偏差的抵抗能力,以及best-of-N擴展能力。
實測後表明,該系列模型在七個主流獎勵模型評測基準上都刷新了SOTA。
Skywork-Reward-V2實測
話不多說,下面我們來就看看,Skywork-Reward-V2-Llama-3.1-8B在極爲困難的RewardBench v2測試集上的實際預測結果,到底如何。
實例1:Skywork-Reward-V2-Llama-3.1-8B擁有判斷模型回覆是否精確循序指令的能力。
實例2:Skywork-Reward-V2-Llama-3.1-8B能夠選擇最安全和穩妥的回答,並對帶有泄露隱私的模型回覆給予低分。
實例3:Skywork-Reward-V2-Llama-3.1-8B在一定程度上能夠識別細微的事實性錯誤。
爲何“死磕”獎勵模型?
目前不少獎勵模型都是“應試型學霸”——在特定基準任務表現非常好,但實際靠的是“死記硬背”。
對特定訓練集內的偏好精準拿捏,可一旦換個領域就抓瞎,題型一換、知識點打亂,就完全失去了判斷力。
圖左丨31個頂尖開源獎勵模型在RewardBench上的能力對比;圖右丨分數的相關性——很多模型在RewardBench上性能提升後,在其他Benchmark上成績卻“原地踏步”,這可能意味着過擬合現象。
爲了克服這種“過擬合”和現象,近期興起了一種GRM(Generative Reward Model)生成式獎勵模型。
比如DeepSeek於2025年4月3日首次發佈的論文,但這種提升比較有限。
論文地址:https://arxiv.org/pdf/2504.02495
與此同時,以OpenAI的o系列模型和DeepSeek-R1爲代表的模型推動了“可驗證獎勵強化學習”(Reinforcement Learning with Verifiable Reward, RLVR)方法的發展。
論文地址:https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf?utm_source=chatgpt.com
然而,由於人類的偏好在本質上是複雜、細緻,且難以捕捉的。
因此,使用這些覆蓋範圍有限、標籤生成方式較爲機械,或缺乏嚴格質量控制的偏好數據所訓練的獎勵模型,在優化開放式、主觀性較強的任務時就變得會十分“脆弱”。
那麼,如何才能更好捕捉人類偏好中那些複雜、難以琢磨的特性,如何讓RM更懂得人類,幫助訓練與人類更加對齊的模型呢?
巧妙構建千萬級人類偏好數據
得益於第一代模型在數據優化方面的經驗,團隊在V2獎勵模型的研發中,決定引入更加多樣且規模更大的真實人類偏好數據。
這樣就可以在提升數據規模的同時兼顧數據質量,從而讓獎勵模型“更懂人類偏好”。
爲此,迄今爲止規模最大,總計包含4,000萬對偏好樣本的偏好混合數據集——Skywork-SynPref-40M誕生了。
其核心創新,在於一條“人機協同、兩階段迭代”的數據篩選流水線。
階段一:人工構建小規模高質量偏好數據
首先,團隊構建了一個未經驗證的初始偏好池,並藉助LLM生成與偏好相關的輔助屬性,如任務類型、客觀性、爭議性等。
在此基礎上,人工標註者依照一套嚴格的驗證協議,並藉助外部工具與先進的大語言模型,對部分數據進行精細審覈,最終構建出一個小規模但高質量的“金標準”數據集,作爲後續數據生成與模型評估的依據。
隨後,Skywork以金標準數據中的偏好標籤爲引導,結合LLM大規模生成高質量的“銀標準”數據,從而實現數據量的擴展。
團隊還進行了多輪迭代優化:每一輪中,訓練獎勵模型並根據其在金標準數據上的表現,識別模型的薄弱環節;
再通過檢索相似樣本並利用多模型一致性機制自動標註,進一步擴展和增強銀標準數據。
這一人機協同的閉環流程持續迭代,有效提升了獎勵模型對偏好的理解與判別能力。
階段二:全自動擴展大規模偏好數據
在獲得初步高質量模型之後,第二階段轉向自動化的大規模數據擴展。
此階段不再依賴人工審覈,而是採用訓練完成的獎勵模型執行一致性過濾:
1. 若某個樣本的標籤與當前最優模型預測不一致,或模型置信度較低,則調用LLM重新自動標註;
2. 若樣本標籤與“金模型”(即僅使用人工數據訓練的模型)預測一致,且獲得當前模型或LLM支持,則可直接通過篩選。
藉助該機制,團隊從原始的4,000萬樣本中成功篩選出2,600萬條精選數據,在極大減少人工標註負擔的同時,實現了偏好數據在規模與質量之間的良好平衡。
小尺寸,大性能
準備好數據,下一步就是訓練了。
相比上一代Skywork-Reward,全新發布的Skywork-Reward-V2系列提供了基於Qwen3和LLaMA 3系列模型訓練的8個獎勵模型,參數規模覆蓋從6億至80億。
在RewardBench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等共七個主流獎勵模型評估基準上
Skywork-Reward-V2系列全面達到了SOTA。
挑戰模型規模限制
新一代模型可以用0.6B媲美上一代模型的27B水準。
最小模型Skywork-Reward-V2-Qwen3-0.6B,其整體性能已幾乎達到上一代最強模型Skywork-Reward-Gemma-2-27B-v0.2的平均水平。
更進一步,Skywork-Reward-V2-Qwen3-1.7B在平均性能上已超越當前開源獎勵模型的SOTA——INF-ORM-Llama3.1-70B。
而最大規模的Skywork-Reward-V2-Llama-3.1-8B,在所有主流基準測試中實現了全面超越,成爲當前整體表現最優的開源獎勵模型。
Skywork-Reward-V2系列在RewardBench v2評測集上的表現
廣泛覆蓋人類偏好
在通用偏好評估基準(如RewardBench)上,Skywork-Reward-V2系列優於多個參數更大的模型(如70B)及最新的生成型獎勵模型(GRM),進一步驗證了高質量數據的重要性。
在客觀正確性評估方面(如JudgeBench和PPE Correctness),儘管整體略遜於少數專注於推理與編程的閉源模型(如OpenAI的o系列),但在知識密集型任務中表現突出,超越了所有其他開源模型。
此外,Skywork-Reward-V2在多項高級能力評估中均取得領先成績,展現了出色的泛化能力與實用性。包括:
Skywork-Reward-V2在PPE Correctness下五個子集的Best-of-N任務中皆達到最佳
在難度較高、專注評估模型對風格偏好的抗性的RM-Bench上,Skywork-Reward-V2系列也取得了SOTA
刷新SOTA
除了在性能評估中表現優異,Skywork還發現,在“人機協同、兩階段迭代”的數據構建流程中,經過精細篩選和過濾的偏好數據,會讓模型變得更加聰明。
這些“精挑細選”的數據在多輪迭代訓練中能夠持續有效地提升獎勵模型的整體性能,尤其是在第二階段的全自動數據擴展中表現尤爲顯著。
相比之下,若僅盲目地擴充原始數據,非但無法提升初始性能,反而可能引入噪聲,帶來負面影響。
爲進一步驗證數據質量的關鍵作用,Skywork在早期版本的1600萬條數據子集上進行實驗,結果顯示,僅使用其中1.8%(約29萬條)的高質量數據訓練一個8B規模模型,其性能就已超過當前的70B級SOTA獎勵模型。
這一結果再次印證了Skywork-SynPref數據集不僅在規模上處於領先地位,更在數據質量方面具有顯著優勢。
除了模型,還有真正的AGI理想
隨着技術演進與範式轉變,獎勵模型及其塑造機制,正快速演化爲——甚至可說是唯一的——LLM訓練流程中的關鍵引擎。
而Skywork-Reward-V2的誕生,也將推動開源獎勵模型的發展,並更廣泛地促進了基於人類反饋強化學習(RLHF)研究的進步。
面向未來,獎勵模型——或者更廣義的統一獎勵系統——將成爲AI基礎設施的核心。
RM將不只是行爲評估器,而是智能系統穿越複雜現實的“指南針”,持續對齊人類價值,驅動AI向更高階、更有意義的方向進化。
而在這款Skywork-Reward-V2模型的背後,是已經完成“算力基礎設施—大模型算法—AI應用”全產業鏈佈局的崑崙萬維(維權)。
在AI應用落地方面,他們打造了衆多的AI智能體、AI短劇、和AI世界模型。
比如,
而最近備受關注的,既可以寫文檔、做PPT、編表格,還能一鍵生成網頁和播客,堪稱打工人的絕對利器。
同時,他們也在矢志不渝的追求AGI進步,深入模型的底層技術,探索AGI的核心邏輯。
不僅在推進AI基礎智能的進步方面,
而且還在空間智能領域推出了能生成虛擬世界,更讓你成爲世界主宰的交互式創世引擎,和,單張圖即可以生3D世界。
此外崑崙萬維也始終致力於開源社區的構建,通過開放權重、技術報告、代碼倉庫,全球開發者、研究人員能夠站在巨人肩膀上,加速AGI的迭代。
不論是面向用戶的AI應用,還是探索AGI的底層技術積累,崑崙萬維的使命都是:實現通用人工智能,讓每個人更好地塑造和表達自我。
參考資料:
https://arxiv.org/abs/2507.01352