DeepSeek-V3 & R1 合体,快手开源 "Auto Think" 大模型

市场资讯
Jun 04, 2025

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

IT之家 6 月 4 日消息,快手 Kwaipilot 团队近日开源了 KwaiCoder-AutoThink-preview 自动思考大模型,针对近期深度思考大模型存在的“过度思考”问题进行了深入研究。团队提出了一种全新的自动思考模型训练范式,同时基于传统强化学习算法(GRPO),提出了带有过程监督的强化学习方法 Step-SRPO,以进一步提升模型在复杂任务中的表现。

据介绍,该模型融合了“思考”和“非思考”能力,号称“DeepSeek-V3 & R1 合体”,具备根据问题难度自动切换思考形态的能力。通过进行这种思考形态训练,模型在多个“思考”和“非思考”评测榜单上均实现了性能提升,其中在部分代码和数学类的任务上,开启自动思考模式下的模型得分提升高达 20 分左右。官方表示,在部分榜单中,即使模型没有开启思考模式,受益于更优的推理形态,性能也有小幅上涨。

快手技术表示,Kwaipilot 未来将基于 preview 版本模型,进一步增强推理能力,支持更完善的思考中工具使用能力,也会将全部技术细节、训练方法开源。IT之家附模型开源地址:

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10