DeepSeek-V3 & R1 合體,快手開源 "Auto Think" 大模型

市場資訊
06-04

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

IT之家 6 月 4 日消息,快手 Kwaipilot 團隊近日開源了 KwaiCoder-AutoThink-preview 自動思考大模型,針對近期深度思考大模型存在的“過度思考”問題進行了深入研究。團隊提出了一種全新的自動思考模型訓練範式,同時基於傳統強化學習算法(GRPO),提出了帶有過程監督的強化學習方法 Step-SRPO,以進一步提升模型在複雜任務中的表現。

據介紹,該模型融合了“思考”和“非思考”能力,號稱“DeepSeek-V3 & R1 合體”,具備根據問題難度自動切換思考形態的能力。通過進行這種思考形態訓練,模型在多個“思考”和“非思考”評測榜單上均實現了性能提升,其中在部分代碼和數學類的任務上,開啓自動思考模式下的模型得分提升高達 20 分左右。官方表示,在部分榜單中,即使模型沒有開啓思考模式,受益於更優的推理形態,性能也有小幅上漲。

快手技術表示,Kwaipilot 未來將基於 preview 版本模型,進一步增強推理能力,支持更完善的思考中工具使用能力,也會將全部技術細節、訓練方法開源。IT之家附模型開源地址:

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10