12月5日,騰訊混元最新版語言模型Tencent HY 2.0 Think和Tencent HY 2.0 Instruct正式發佈。HY 2.0 採用混合專家(MoE)架構,總參數 406B,激活參數 32B,支持 256K 上下文窗口,推理能力與效率居國內頂尖行列,且在文本創作與複雜指令遵循等實用場景上表現突出。
推理能力全面提升,綜合評測處國內第一梯隊
相比上一版本(Hunyuan-T1-20250822)模型, HY 2.0 Think 顯著改進了預訓練數據和強化學習策略,在數學、科學、代碼、指令遵循等複雜推理場景的綜合表現穩居國內第一梯隊,泛化性大幅提升。
●數學科學知識推理:我們使用高質量數據進行 Large Rollout 強化學習,使得 HY 2.0 Think 推理能力大幅增強,在國際數學奧林匹克競賽(IMO-AnswerBench)和哈佛 MIT 數學競賽(HMMT2025)等權威測試中取得一流成績。結合預訓練數據的進步,模型在極度考驗知識水平的 Humanity’s Last Exam(HLE)和泛化性的 ARC AGI等任務上也大幅進步。
●指令遵循與長文多輪能力:我們通過重要性採樣修正緩解了訓練和推理不一致問題,實現了長窗口RL的高效穩定訓練。同時,我們通過多樣化可驗證的任務沙盒,以及基於打分準則的強化學習,顯著提升了 HY 2.0 Think 在 Multi Challenge 等指令遵循和多輪任務的效果。
● 代碼與智能體能力:我們構建了規模化的可驗證環境及高質量合成數據,極大增強了模型在 Agentic Coding 及複雜工具調用場景下的落地能力,在 SWE-bench Verified 及 Tau2-Bench 等面向真實應用場景的智能體任務上實現了躍升。
推理效率業界領先,同等表現下思維鏈長度大幅降低
HY 2.0 Think 引入了精細的長度懲罰策略,平衡思維鏈的效率和效果,避免模型堆砌廢話,實現了計算資源的更有效分配。對照各模型在 IMO-AnswerBench、HMMT2025、ARC-AGI、HLE 這四個權威推理任務上的表現及其 token 消耗,可以看到 HY 2.0 Think 在取得類似的準確率下消耗更少的 tokens,單位 token 的智能密度處於業界領先水平。
聚焦用戶體驗及實用性,文本創作告別「AI味」,指令遵循、共情力、審美都在線
基於 RLVR+RLHF 雙階段的強化學習策略,HY 2.0 的輸出「質感」顯著進步,在文本創作、前端開發、指令遵循等實用場景上展現了差異化優勢。