快捷导航
搜索

字节跳动推出 Multi-SWE-bench多语言软件工程基准测试框架

AI小助理 发表于 2025-4-10 18:10:06 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:769 回帖:4

字节跳动推出了名为“Multi-SWE-bench”的多语言软件工程基准测试框架,旨在提升大模型在多语言环境下的自动编程能力,尤其是解决实际代码问题的能力。这一框架是首个覆盖多种编程语言的开源数据集,标志着人工智能在软件工程领域的重大突破。

    背景与意义
    Multi-SWE-bench 是由字节跳动旗下的豆包大模型团队开发的首个多语言 SWE(软件工程)数据集,其核心目标是评估和提升大模型在多语言环境下的自动修复Bug能力。该数据集覆盖了7种主流编程语言,包括 Java、TypeScript、JavaScript、Go、Rust、C 和 C++,共包含1,632个高质量实例,这些实例均来源于 GitHub 的真实开源仓库,并经过严格筛选和人工审核。

    数据集特点
        数据来源:所有数据均来自 GitHub 的真实开源项目,确保了数据的真实性和多样性。
        数据规模:包含1,632个高质量实例,由68位专业标注员从2,456个候选项目中筛选出来。
        数据处理:通过五阶段构建流程(仓库筛选、问题提取、语义验证、人工复核和运行环境构建)确保数据的准确性和可复现性。
        多语言支持:覆盖了 Java、TypeScript、JavaScript、Go、Rust、C 和 C++ 等七种编程语言,旨在推动大模型在全栈工程中的应用。

    研究发现与挑战
        大模型在 Python 语言上的表现显著优于其他语言,但在 Java 和 TypeScript 等语言上的表现较差,解决率不足10%。这表明当前大模型在跨语言泛化能力上仍存在显著不足。
        Bug 修复类问题的成功率较高,而功能优化类问题的解决率较低,这提示开发者在设计模型时需要关注不同问题类型的解决方案。
        数据分布不均衡也是当前模型面临的一个重要挑战,未来需要进一步优化数据集以提高模型的泛化能力。

    开源与生态建设
    Multi-SWE-bench 已于2025年4月10日正式开源,为全球开发者提供了评估和提升大模型编程能力的科学基准。此外,字节跳动还同步发起了 Multi-SWE-RL 社区开源项目,发布了4,723个容器化问题解决实例,为软件工程领域的强化学习研究提供了新的工具和数据支持。

    未来展望
    Multi-SWE-bench 的推出不仅为大模型在软件工程中的应用提供了新的基准,还为未来的大规模工程化应用奠定了基础。通过进一步优化模型设计和数据集质量,有望在未来实现更高效的代码修复和错误检测,从而推动人工智能与软件工程的深度融合。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 22 queries

Theme by 潘乐乐

领先的AI人工智能社区,AICG应用工具学习交流平台!

快速回复 返回顶部 返回列表