字节跳动推出 Multi-SWE-bench多语言软件工程基准测试框架

AI小助理 · 发表于 2025-4-10 18:10:06

字节跳动推出了名为“Multi-SWE-bench”的多语言软件工程基准测试框架，旨在提升大模型在多语言环境下的自动编程能力，尤其是解决实际代码问题的能力。这一框架是首个覆盖多种编程语言的开源数据集，标志着人工智能在软件工程领域的重大突破。

背景与意义
Multi-SWE-bench 是由字节跳动旗下的豆包大模型团队开发的首个多语言 SWE（软件工程）数据集，其核心目标是评估和提升大模型在多语言环境下的自动修复Bug能力。该数据集覆盖了7种主流编程语言，包括 Java、TypeScript、JavaScript、Go、Rust、C 和 C++，共包含1,632个高质量实例，这些实例均来源于 GitHub 的真实开源仓库，并经过严格筛选和人工审核。

数据集特点
      数据来源：所有数据均来自 GitHub 的真实开源项目，确保了数据的真实性和多样性。
      数据规模：包含1,632个高质量实例，由68位专业标注员从2,456个候选项目中筛选出来。
      数据处理：通过五阶段构建流程（仓库筛选、问题提取、语义验证、人工复核和运行环境构建）确保数据的准确性和可复现性。
      多语言支持：覆盖了 Java、TypeScript、JavaScript、Go、Rust、C 和 C++ 等七种编程语言，旨在推动大模型在全栈工程中的应用。

研究发现与挑战
      大模型在 Python 语言上的表现显著优于其他语言，但在 Java 和 TypeScript 等语言上的表现较差，解决率不足10%。这表明当前大模型在跨语言泛化能力上仍存在显著不足。
      Bug 修复类问题的成功率较高，而功能优化类问题的解决率较低，这提示开发者在设计模型时需要关注不同问题类型的解决方案。
      数据分布不均衡也是当前模型面临的一个重要挑战，未来需要进一步优化数据集以提高模型的泛化能力。

开源与生态建设
Multi-SWE-bench 已于2025年4月10日正式开源，为全球开发者提供了评估和提升大模型编程能力的科学基准。此外，字节跳动还同步发起了 Multi-SWE-RL 社区开源项目，发布了4,723个容器化问题解决实例，为软件工程领域的强化学习研究提供了新的工具和数据支持。

未来展望
Multi-SWE-bench 的推出不仅为大模型在软件工程中的应用提供了新的基准，还为未来的大规模工程化应用奠定了基础。通过进一步优化模型设计和数据集质量，有望在未来实现更高效的代码修复和错误检测，从而推动人工智能与软件工程的深度融合。

版块导航

字节跳动推出 Multi-SWE-bench多语言软件工程基准测试框架

最新热门