当前位置:首页 > 元宇宙 > AI

大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

来源: 责编: 时间:2025-04-13 08:41:48 148观看
导读 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Pyth

4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。8E828资讯网——每日最新资讯28at.com

在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。8E828资讯网——每日最新资讯28at.com

8E828资讯网——每日最新资讯28at.com

Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。8E828资讯网——每日最新资讯28at.com

SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。8E828资讯网——每日最新资讯28at.com

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:8E828资讯网——每日最新资讯28at.com

首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;8E828资讯网——每日最新资讯28at.com

引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;8E828资讯网——每日最新资讯28at.com

1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。8E828资讯网——每日最新资讯28at.com

8E828资讯网——每日最新资讯28at.com

附开源链接:8E828资讯网——每日最新资讯28at.com

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:8E828资讯网——每日最新资讯28at.com

论文链接:https://arxiv.org/ abs / 2504.026058E828资讯网——每日最新资讯28at.com

榜单链接:https://multi-swe-bench.github.io8E828资讯网——每日最新资讯28at.com

代码链接:https://github.com/ multi-swe-bench / multi-swe-bench8E828资讯网——每日最新资讯28at.com

数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench8E828资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12213-0.html大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 优音通信双奖加冕,智能通信创新引领行业未来!

下一篇: 谷歌 Veo 2 升级可生成更具电影感视频,文本、音频 AI 同步升级

标签:
  • 热门焦点
  • 雷克萨斯高管,“受贿”5000万?

    来源:毒舌科技作者:潘磊雷克萨斯的高管,好像出事了。五六家日本小媒体,突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元(约合人民币5000
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • NFT的未来:传统企业与去中心化机构之间的竞赛

    传统企业和去中心化机构一直存在分歧,但最近NFT的爆炸式增长让他们产生了共同的兴趣,双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问,NFT 市场正在增长。
  • Meta公布AI概念“Builder Bot”;银保监发布元宇宙相关风险提示

    概述自从Meta在2月初公布财报后,其负责元宇宙的核心部门Reality Labs表现不佳,净亏损超100亿美元,随后股价断崖式下跌。如今,Meta开始继续发力元宇宙,想要挽回颓势,
  • 韩国建立元宇宙生态系统,智度股份发布元宇宙社区Meta彼岸

    财联社|区块链日报28日讯 今日《元宇宙新鲜事》有:杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业;韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 又一家数字营销公司入局元宇宙,国内首个艺术元宇宙社区“Meta彼岸”上线

    作者:董宇佳2月28日,智度股份在北京举办产品发布会,宣布其与国光电器联手打造的国内首个艺术元宇宙社区——“Meta彼岸”在VR端和移动端正式公测。从科技巨头布局
Top