提升大模型自動(dòng)修Bug能力豆包正式開源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集
4月10日消息,今日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)宣布,正式開源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集——Multi-SWE-bench,可用于評(píng)估和提升大模型“自動(dòng)修 Bug”能力。
在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語(yǔ)言(Java、Go、Rust、C、C++、TypeScript、JavaScript),是真正面向“全棧工程”的評(píng)測(cè)基準(zhǔn)。
Multi-SWE-bench包含1632個(gè)實(shí)例,均來(lái)自GitHub issue,并經(jīng)過(guò)統(tǒng)一的測(cè)試標(biāo)準(zhǔn)和專業(yè)開發(fā)者的審核篩選,確保每個(gè)樣本具備清晰的問(wèn)題描述、正確的修復(fù)補(bǔ)丁以及可復(fù)現(xiàn)的運(yùn)行測(cè)試環(huán)境。
豆包大模型團(tuán)隊(duì)希望,Multi-SWE-bench能作為大模型在多種主流編程語(yǔ)言與真實(shí)代碼環(huán)境中的系統(tǒng)性評(píng)測(cè)基準(zhǔn),推動(dòng)自動(dòng)編程能力向更實(shí)用、更工程化的方向發(fā)展。
團(tuán)隊(duì)表示,相比于以往聚焦Python的單語(yǔ)言任務(wù),Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語(yǔ)言開發(fā)場(chǎng)景,也更能反映當(dāng)前模型在“自動(dòng)化軟件工程”方向上的實(shí)際能力邊界。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。