月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1
创始人
2025-06-17 14:40:44
0

智东西

编译 | ZeR0

编辑 | 漠影

智东西6月17日报道,今日凌晨,月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。

该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平,以仅72B的参数量,成绩超过了刚于5月28日发布、参数量多达671B的新版DeepSeek-R1。

Kimi-Dev-72B在AI软件工程能力基准测试SWE-bench Verified上取得了60.4%的高分,创下开源模型的SOTA成绩。

▲开源模型在SWE-bench上的性能已得到验证

▲闭源模型在SWE-bench上的性能已得到验证

通过大规模强化学习进行了优化。它能够自主修补Docker中的真实存储库,并且只有当整个测试套件通过时才会获得奖励。这确保了解决方案的正确性和稳健性,并符合现实世界的开发标准。

Kimi-Dev-72B现已在Hugging Face和GitHub上提供下载和部署。其发布给社区的关键资源包括模型权重、源代码,技术报告也即将推出。

Hugging Face地址:huggingface.co/moonshotai/Kimi-Dev-72B

GitHub地址:github.com/MoonshotAI/Kimi-Dev

月之暗面介绍了Kimi-Dev-72B的设计理念和技术细节,包括BugFixer和 TestWriter的组合中期训练强化学习测试时自我博弈

1、BugFixer和TestWriter的组合

成功修复错误的补丁(patch)应能通过准确反映该错误的单元测试。同时,复现错误的成功测试应引发断言错误,并在将正确的错误修复补丁应用到代码库后通过。这致使BugFixer和TestWriter互补,一个足够强大的编程大语言模型应该在这两个方面都表现出色。

BugFixer和TestWriter的工作流程类似:它们都会先找到正确的文件进行编辑,然后编辑正确的代码更新,无论是修复脆弱的实现还是插入unittest函数。因此,对于这两种角色,Kimi-Dev-72B都采用了相同的极简框架,该框架仅包含两个阶段:文件本地化和代码编辑。BugFixer和TestWriter的双重设计奠定了Kimi-Dev-72B的基础。

2、训练中期

为了增强Kimi-Dev-72B作为BugFixer和TestWriter的先验知识,月之暗面使用约1500亿个高质量的真实数据进行中期训练。

以Qwen 2.5-72B基础模型为起点,月之暗面收集了数百万个GitHub问题和 PR提交作为其中期训练数据集。数据配方经过精心构建,使Kimi-Dev-72B 能够学习人类开发者如何推理GitHub问题、编写代码修复和单元测试。

月之暗面还进行了严格的数据净化,将所有存储库从SWE-bench Verified中剔除。

中期训练充分增强了基础模型对实际Bug修复和单元测试的了解,使该模型成为后续强化学习训练的更佳起点。

3、强化学习

通过适当的中期训练和SFT,Kimi-Dev-72B在文件本地化方面表现出色。因此,其强化学习阶段专注于提升其代码编辑能力。

月之暗面使用了Kimi k1.5中描述的策略优化方法,该方法在推理任务中表现出色。对于SWE-bench Verified,月之暗面重点关注以下三个关键设计:

  • 仅基于结果的奖励。仅使用Docker的最终执行结果(0或1)作为奖励,训练期间不采用任何基于格式或过程的奖励。
  • 高效的提示集。过滤掉模型在多样本评估下成功率为零的提示,从而更有效地利用大批量。采用课程学习(curriculum learning)法,引入新的提示,逐步提高任务难度。
  • 正例强化。在训练的最后阶段,将之前迭代中最近成功的样本纳入当前批次。这有助于模型增强成功模式并提升性能。

Kimi-Dev-72B通过使用高度并行、强大且高效的内部agent基础设施,从可扩展数量的问题解决任务的训练中受益。

4、测试时自我博弈

经过强化学习后,Kimi-Dev-72B能同时掌握BugFixer和TestWriter的角色。在测试过程中,它会采用自我博弈机制,协调自身Bug修复和测试编写的能力。

▲BugFixer和TestWriter之间的测试时自博弈

每个问题最多可生成40个补丁候选和40个测试候选(按照标准无agent设置),可观察到测试时自博弈的扩展效应

结语:未来迭代侧重深度集成,更无缝地融入工作流程

月之暗面正在积极研究和开发扩展Kimi-Dev-72B功能的方法,并探索更复杂的软件工程任务。

其未来的迭代将侧重于与流行的集成开发环境(IDE)、版本控制系统和CI/CD流水线进行更深入的集成,使Kimi-Dev-72B更加无缝地融入开发者的工作流程。

该公司承诺将持续改进Kimi-Dev-72B,进行严谨的红队测试,并向社区发布更强大的模型。

来源:月之暗面GitHub项目

相关内容

热门资讯

亿万身价的王子好友,被一只蜜蜂... 如果你在小说里读到这个设定,你一定会觉得“太假了”:他是坐拥12亿美元资产的印度亿万富翁,是英国皇室...
开封:AI赋能数字政府 助力政... 人工智能作为新一轮科技革命和产业变革的核心驱动力,正以前所未有的速度重塑着社会发展格局。6月17日,...
原创 i... 苹果近期正式向开发者通道用户推送了iOS 18.6的首个Beta测试版本(内部版本号:22G5054...
云天励飞:公司于2024年正式... 证券之星消息,云天励飞(688343)06月17日在投资者关系平台上答复投资者关心的问题。 投资者提...
CIO如何为AI确保数据质量 高质量的数据对任何IT项目的成功都至关重要,对AI项目来说更是如此。虽然劣质数据总是会产生糟糕的结果...
中亦科技中标结果:新华人寿合肥... 证券之星消息,根据天眼查APP信息整理,6月17日公布的《新华人寿合肥系统组件重保项目标包3:Red...
6月17日前海开源沪港深优势精... 金融界2025年6月17日消息,前海开源沪港深优势精选混合A(001875) 最新净值1.5210元...
记者:米兰即将1000万欧元报... 直播吧06月17日讯 记者隆戈消息,AC米兰将在未来几小时预勒沃库森进行首次接触,预计将开出首份总价...
剧集周报|上周三部大剧网播指数... 导语:暑期档第二周,分别来自三大平台的《临江仙》《长安的荔枝》《藏海传》,撑起了大盘市场的热度。尤其...
构建“长安”宇宙,《长安的荔枝... 文|11‍‍‍‍‍‍‍‍‍‍‍没想到,《长安的荔枝》剧情已过大半,又给观众带来了一大惊喜——易烊千玺...
给近5年最好的谍战剧排名:《潜... 《潜渊》热播,屏幕谍战再起。谍战剧这二十年,用一句话来形容,就是“飞龙在天,潜龙在渊”。何为“飞龙在...
《风筝》中韩冰原本备受倚重,为... 解读《风筝》我是专业的!韩冰在中共内的地位是相当特殊的,主要就是负责刑侦和反特一类的工作,相当于中央...
惊天大线索出现!是真相,还是烟... 今晚(6月17日)由孙俪、罗晋领衔主演的悬疑刑侦大剧《乌云之上》7、8集将在四川卫视金熊猫剧场播出!...
易烊千玺客串《长安的荔枝》,还... 同样说的是长安,看过《长安的荔枝》和《长安十二时辰》才懂这部剧拍的有多好。第22集易烊千玺惊喜客串,...
7月,《为丑女献上花束》,早见... 《为丑女献上花束。》将在2025年7月4日播出!姐妹们的睡前科幻剧来了,这设定不就是常见的不受欢迎的...
《护宝寻踪》带火9个反派,辛柏... 白宇帆、辛柏青、王鹤润、富大龙主演的文物追缉剧《护宝寻踪》在断断续续的播了2多天后,迎来圆满收官,大...
事实证明,杨幂和赵丽颖的明争暗... 赵丽颖和85花的明争暗斗,现在已经升级为赵丽颖和杨幂的是战争。同样作为85的顶流,她们总是时不时被放...
阿里开源千问3量化模型 全系适... 新京报贝壳财经讯(记者罗亦丹)6月17日,阿里巴巴通义团队开源了全新的千问3量化模型,完成基于苹果硬...
莫拉塔个人纪录片首播:因抑郁症... 北京时间6月17日,莫拉塔的个人纪录片《他们不知道我是谁》在Movistar Plus首播。该片主要...