炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
智东西
编译 ZeR0
编辑 漠影
智东西6月17日报道,今日凌晨,月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。
该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平,以仅72B的参数量,成绩超过了刚于5月28日发布、参数量多达671B的新版DeepSeek-R1。
Kimi-Dev-72B在AI软件工程能力基准测试SWE-bench Verified上取得了60.4%的高分,创下开源模型的SOTA成绩。
通过大规模强化学习进行了优化。它能够自主修补Docker中的真实存储库,并且只有当整个测试套件通过时才会获得奖励。这确保了解决方案的正确性和稳健性,并符合现实世界的开发标准。
Kimi-Dev-72B现已在Hugging Face和GitHub上提供下载和部署。其发布给社区的关键资源包括模型权重、源代码,技术报告也即将推出。
Hugging Face地址:huggingface.co/moonshotai/Kimi-Dev-72B
GitHub地址:github.com/MoonshotAI/Kimi-Dev
月之暗面介绍了Kimi-Dev-72B的设计理念和技术细节,包括BugFixer和 TestWriter的组合、中期训练、强化学习和测试时自我博弈。
1、BugFixer和TestWriter的组合
成功修复错误的补丁(patch)应能通过准确反映该错误的单元测试。同时,复现错误的成功测试应引发断言错误,并在将正确的错误修复补丁应用到代码库后通过。这致使BugFixer和TestWriter互补,一个足够强大的编程大语言模型应该在这两个方面都表现出色。
BugFixer和TestWriter的工作流程类似:它们都会先找到正确的文件进行编辑,然后编辑正确的代码更新,无论是修复脆弱的实现还是插入unittest函数。因此,对于这两种角色,Kimi-Dev-72B都采用了相同的极简框架,该框架仅包含两个阶段:文件本地化和代码编辑。BugFixer和TestWriter的双重设计奠定了Kimi-Dev-72B的基础。
2、训练中期
为了增强Kimi-Dev-72B作为BugFixer和TestWriter的先验知识,月之暗面使用约1500亿个高质量的真实数据进行中期训练。
以Qwen 2.5-72B基础模型为起点,月之暗面收集了数百万个GitHub问题和 PR提交作为其中期训练数据集。数据配方经过精心构建,使Kimi-Dev-72B 能够学习人类开发者如何推理GitHub问题、编写代码修复和单元测试。
月之暗面还进行了严格的数据净化,将所有存储库从SWE-bench Verified中剔除。
中期训练充分增强了基础模型对实际Bug修复和单元测试的了解,使该模型成为后续强化学习训练的更佳起点。
3、强化学习
通过适当的中期训练和SFT,Kimi-Dev-72B在文件本地化方面表现出色。因此,其强化学习阶段专注于提升其代码编辑能力。
月之暗面使用了Kimi k1.5中描述的策略优化方法,该方法在推理任务中表现出色。对于SWE-bench Verified,月之暗面重点关注以下三个关键设计:
Kimi-Dev-72B通过使用高度并行、强大且高效的内部agent基础设施,从可扩展数量的问题解决任务的训练中受益。
4、测试时自我博弈
经过强化学习后,Kimi-Dev-72B能同时掌握BugFixer和TestWriter的角色。在测试过程中,它会采用自我博弈机制,协调自身Bug修复和测试编写的能力。
每个问题最多可生成40个补丁候选和40个测试候选(按照标准无agent设置),可观察到测试时自博弈的扩展效应。
结语:未来迭代侧重深度集成,更无缝地融入工作流程
月之暗面正在积极研究和开发扩展Kimi-Dev-72B功能的方法,并探索更复杂的软件工程任务。
其未来的迭代将侧重于与流行的集成开发环境(IDE)、版本控制系统和CI/CD流水线进行更深入的集成,使Kimi-Dev-72B更加无缝地融入开发者的工作流程。
该公司承诺将持续改进Kimi-Dev-72B,进行严谨的红队测试,并向社区发布更强大的模型。
来源:月之暗面GitHub项目
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.