日前,字节跳动豆包大模型团队开源首个多语言类SWE数据集“Multi-SWE-bench”,可用于评估和提升大模型“自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向“栈工程”的评测基准。
豆包大模型团队希望,Multi-SWE-bench能作为大模型在多种主流编程语言与真实代码环境中的系统性评测基准,推动自动编程能力向更实用、更工程化的方向发展。相比以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在“自动化软件工程”方向上的实际能力边界。
上一篇:升级“木字号”产业链提质增效