DeepSeek推出新型數學推理模型DeepSeekMath-V2,採用可自我驗證的訓練框架。該模型基於DeepSeek-V3.2-Exp-Base構建,通過LLM驗證器自動審查生成的數學證明,並利用高難度樣本持續優化性能。在IMO 2025和CMO 2024中均達到金牌水平,Putnam 2024獲118/120分。
團隊表示,該成果驗證了自驗證推理路徑的可行性,為構建可靠數學智能系統提供新方向。模型代碼與權重已開源,發佈於Hugging Face及GitHub平臺。
DeepSeek推出新型數學推理模型DeepSeekMath-V2,採用可自我驗證的訓練框架。該模型基於DeepSeek-V3.2-Exp-Base構建,通過LLM驗證器自動審查生成的數學證明,並利用高難度樣本持續優化性能。在IMO 2025和CMO 2024中均達到金牌水平,Putnam 2024獲118/120分。
團隊表示,該成果驗證了自驗證推理路徑的可行性,為構建可靠數學智能系統提供新方向。模型代碼與權重已開源,發佈於Hugging Face及GitHub平臺。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。