炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
IT之家 6 月 4 日消息,快手 Kwaipilot 團隊近日開源了 KwaiCoder-AutoThink-preview 自動思考大模型,針對近期深度思考大模型存在的「過度思考」問題進行了深入研究。團隊提出了一種全新的自動思考模型訓練範式,同時基於傳統強化學習算法(GRPO),提出了帶有過程監督的強化學習方法 Step-SRPO,以進一步提升模型在複雜任務中的表現。

據介紹,該模型融合了「思考」和「非思考」能力,號稱「DeepSeek-V3 & R1 合體」,具備根據問題難度自動切換思考形態的能力。通過進行這種思考形態訓練,模型在多個「思考」和「非思考」評測排行榜上均實現了性能提升,其中在部分代碼和數學類的任務上,開啓自動思考模式下的模型得分提升高達 20 分左右。官方表示,在部分排行榜中,即使模型沒有開啓思考模式,受益於更優的推理形態,性能也有小幅上漲。

快手技術表示,Kwaipilot 未來將基於 preview 版本模型,進一步增強推理能力,支持更完善的思考中工具使用能力,也會將全部技術細節、訓練方法開源。IT之家附模型開源地址:
海量資訊、精準解讀,盡在新浪財經APP