《“巢燧”大模型基準(zhǔn)測(cè)試報(bào)告》在成都發(fā)布,中文大模型數(shù)學(xué)推理能力大幅增強(qiáng)
12月25日,于成都舉行的“2024人工智能大模型基準(zhǔn)測(cè)試科創(chuàng)發(fā)展大會(huì)”上,《“巢燧”大模型基準(zhǔn)測(cè)試報(bào)告》(以下簡稱“報(bào)告”)正式發(fā)布。該報(bào)告由OpenEval平臺(tái)、天津大學(xué)自然語言處理實(shí)驗(yàn)室和大模型基準(zhǔn)評(píng)測(cè)專家委員會(huì)聯(lián)合紅星新聞發(fā)布,聚焦知識(shí)能力和價(jià)值對(duì)齊兩大維度,對(duì)國內(nèi)研發(fā)的開源和閉源大語言模型進(jìn)行了系統(tǒng)的評(píng)測(cè)。
今年以來,我國的人工智能大模型正以前所未有的速度發(fā)展,各類大模型百花齊放。據(jù)不完全統(tǒng)計(jì),國產(chǎn)大模型的數(shù)量已超過200個(gè),覆蓋多個(gè)行業(yè)領(lǐng)域,應(yīng)用場(chǎng)景不斷拓展。記者了解到,報(bào)告希望通過系統(tǒng)而全面的大模型評(píng)測(cè),為AI發(fā)展和安全治理提供關(guān)鍵數(shù)據(jù),推動(dòng)AI發(fā)展和應(yīng)用符合倫理原則和標(biāo)準(zhǔn),實(shí)現(xiàn)AI智善和諧發(fā)展。
報(bào)告收錄了“巢燧”大模型基準(zhǔn)綜合評(píng)測(cè)第二次評(píng)測(cè)結(jié)果顯示,在過去一年里,中文大模型在學(xué)科知識(shí)以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強(qiáng)。閉源模型在學(xué)科知識(shí)、數(shù)學(xué)推理、語言理解及常識(shí)掌握等方面,相較開源模型展現(xiàn)出了更出色的性能。以下為“巢燧”大模型基準(zhǔn)綜合評(píng)測(cè)第二次評(píng)測(cè)結(jié)果:
一、 評(píng)測(cè)維度
此次評(píng)測(cè)聚焦于知識(shí)能力和價(jià)值對(duì)齊兩大維度、六則細(xì)項(xiàng),多模態(tài)大模型多步推理,大模型中文高考數(shù)學(xué)復(fù)雜推理兩個(gè)專項(xiàng)評(píng)測(cè),對(duì)大語言模型展開全面評(píng)測(cè)。
1. 知識(shí)能力評(píng)測(cè)
語言知識(shí):通過評(píng)估大模型在自然語言理解、預(yù)測(cè)和生成方面的能力,揭示其對(duì)語言的全面理解和運(yùn)用能力。其中使用的數(shù)據(jù)集有BiPaR、C3等,包含的具體任務(wù)有小說問答、閱讀理解、文本推理、詞性理解等。
學(xué)科知識(shí):采用人類標(biāo)準(zhǔn)化考試方式,對(duì)大模型進(jìn)行多學(xué)科知識(shí)水平的綜合評(píng)估,以確保其在各學(xué)科領(lǐng)域的廣泛知識(shí)基礎(chǔ)。學(xué)科知識(shí)按照學(xué)科類型有人文藝術(shù)、社會(huì)科學(xué)、自然科學(xué)等類型,按照學(xué)科段分為小學(xué)階段、初中階段、高中階段、大學(xué)階段等。
常識(shí)知識(shí):通過常識(shí)沖突檢測(cè)、推理和補(bǔ)充等方式,深入評(píng)估大模型在常識(shí)知識(shí)和推理能力方面的表現(xiàn),以確保其能夠有效運(yùn)用廣泛的常識(shí)。常識(shí)知識(shí)包含了常識(shí)錯(cuò)誤診斷、常識(shí)錯(cuò)誤定位、常識(shí)錯(cuò)誤抽取等。
數(shù)學(xué)推理:以數(shù)學(xué)應(yīng)用題的形式進(jìn)行評(píng)測(cè),重點(diǎn)考察大模型在基礎(chǔ)數(shù)學(xué)推理方面的能力,以保證其具備對(duì)復(fù)雜數(shù)學(xué)問題的解決潛力。數(shù)學(xué)推理包含了方程、分?jǐn)?shù)、集合、四則運(yùn)算、概率統(tǒng)計(jì)等內(nèi)容。
2. 價(jià)值對(duì)齊評(píng)測(cè)
倫理對(duì)齊:通過評(píng)估大模型在偏見、歧視、有毒內(nèi)容等方面的價(jià)值對(duì)齊能力,確保其生成的內(nèi)容符合道德和倫理準(zhǔn)則,避免不當(dāng)?shù)钠姾推缫暋0姟⒚胺浮⑵缫暋⑴K話等內(nèi)容。
安全可控:評(píng)估大模型在合作意愿、可糾正性等方面的安全可控能力,以確保在使用過程中能夠及時(shí)識(shí)別并糾正不安全或不適當(dāng)?shù)男袨椋U嫌脩舻陌踩碗[私。評(píng)測(cè)包含了系統(tǒng)的可糾正性、富有遠(yuǎn)見、理性決策等方面。
3. 多模態(tài)大模型多步推理專項(xiàng)評(píng)測(cè)
本專項(xiàng)評(píng)測(cè)涵蓋了8款開源多模態(tài)大模型和5款閉源多模態(tài)大模型,使用多步推理數(shù)據(jù)集進(jìn)行評(píng)測(cè)。該數(shù)據(jù)集分為8個(gè)子集,即多模態(tài)推理、邏輯推理任務(wù)、圖表分析推理、數(shù)學(xué)問題推理、科學(xué)問題推理、文件理解推理、頁瀏覽型推理、閱讀理解推理。測(cè)試數(shù)據(jù)集最的特點(diǎn)在于:每個(gè)測(cè)試樣例都由較長的系列推理操作組成。按照完成任務(wù)所需要的推理步數(shù),該數(shù)據(jù)集測(cè)試樣例又可分為三個(gè)難度級(jí)別:Level 1(3-6步推理)、Level 2(7-11步推理)、Level 3(12步以上推理)。
4. 大模型中文高考數(shù)學(xué)復(fù)雜推理專項(xiàng)評(píng)測(cè)
本專項(xiàng)評(píng)測(cè)涵蓋了1款閉源復(fù)雜推理大模型OpenAI o1-mini和2款開源復(fù)雜推理大模型Qwen-QWQ-32B、Skywork-o1-Open-Llama-3.1-8B,使用多類別數(shù)學(xué)推理數(shù)據(jù)集進(jìn)行評(píng)測(cè)。該數(shù)據(jù)集分為8個(gè)子集:基本初等函數(shù)與導(dǎo)數(shù)推理、三角函數(shù)與解三角形推理、平面解析幾何推理、數(shù)列推理、立體幾何與空間向量推理、計(jì)數(shù)原理推理、統(tǒng)計(jì)與概率推理、其他數(shù)學(xué)推理(涵蓋邏輯、集合、不等式、復(fù)數(shù))。
測(cè)試數(shù)據(jù)集最的特點(diǎn)在于,所有數(shù)據(jù)均來源于最新的2024年1月至2024年5月的高考數(shù)學(xué)預(yù)測(cè)試卷以及模擬試卷,減少了數(shù)據(jù)污染的影響。該數(shù)據(jù)集內(nèi)容豐富,共包含4399題,難度等級(jí)劃分為7級(jí),所有測(cè)試樣例難度等級(jí)均進(jìn)行了人工標(biāo)注,一些難度較大的題目答案解析超過2000字符。本次評(píng)測(cè)另采用了2款開源大模型Qwen-Math-2.5-72B-Instruct和Meta-Llama-3-8B-Instruct作為Baseline與復(fù)雜推理大模型的評(píng)測(cè)結(jié)果進(jìn)行比較。
二、 國內(nèi)大模型知識(shí)能力和價(jià)值對(duì)齊總體表現(xiàn)
基于“巢燧”基準(zhǔn)評(píng)測(cè)綜合測(cè)試結(jié)果,多個(gè)國內(nèi)大模型,如文心一言、千問、豆包、yi、商湯商量中文能力超過GPT-4。百川、abab6.5s、星火、混元、Kimi、GLM-4等,中文能力超過GPT-3.5-Turbo。以上評(píng)測(cè)結(jié)果表明,國內(nèi)大模型在過去一年中取得了關(guān)鍵進(jìn)展。
三、 知識(shí)能力和價(jià)值對(duì)齊評(píng)測(cè)結(jié)果
1. 開源模型評(píng)測(cè)結(jié)果
2. 閉源模型評(píng)測(cè)結(jié)果
3. 6個(gè)維度評(píng)測(cè)結(jié)果
四、 多模態(tài)大模型多步推理專項(xiàng)評(píng)測(cè)
1. 開源多模態(tài)大模型評(píng)測(cè)結(jié)果概覽:
如性能雷達(dá)圖所示,開源多模態(tài)大模型呈現(xiàn)出以下特點(diǎn):
(1) 閱讀理解推理和文件理解推理是開源多模態(tài)大模型區(qū)分度較大的維度;
(2)開源大模型在不同維度的表現(xiàn)展示出相似的特點(diǎn),例如在閱讀理解推理的表現(xiàn)均好于數(shù)學(xué)問題推理或圖表分析推理等。
如圖所示,開源多模態(tài)大模型的性能隨著問題難度增加而下降。
2. 閉源大模型評(píng)測(cè)結(jié)果概述
基于性能雷達(dá)圖,閉源多模態(tài)大模型呈現(xiàn)出以下特點(diǎn):
(1)閉源多模態(tài)大模型在不同維度的表現(xiàn)展示出相似的特點(diǎn),例如在閱讀理解推理和文件理解推理表現(xiàn)較好,在多模態(tài)推理和數(shù)學(xué)問題推理表現(xiàn)較差等;
(2)閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理和圖表分析推理的差異較大。
如圖所示,閉源多模態(tài)大模型的性能隨著問題難度增加而下降。
3. 總結(jié)
對(duì)比開源多模態(tài)大模型與閉源多模態(tài)大模型,我們發(fā)現(xiàn):
(1)開源多模態(tài)大模型在多模態(tài)推理和科學(xué)問題推理兩個(gè)維度展現(xiàn)出了顯著的優(yōu)勢(shì),尤其是在多模態(tài)推理上,多個(gè)開源大模型已經(jīng)達(dá)到或超過GPT-4o;
(2)相比于開源多模態(tài)大模型,閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理、文件理解推理和圖表分析推理等維度普遍表現(xiàn)更優(yōu)秀;而在數(shù)學(xué)問題推理和多模態(tài)推理兩個(gè)維度上,閉源多模態(tài)大模型與開源多模態(tài)大模型的差異并不明顯。
(3)開源多模態(tài)大模型與閉源多模態(tài)大模型的性能均隨著問題難度增加而下降,問題難度越低,不同模型間的差異越明顯。
綜上所述,目前多模態(tài)大模型在數(shù)學(xué)問題推理和多模態(tài)推理等維度還有待關(guān)注和重視,同時(shí),多模態(tài)大模型在推理步驟較長的任務(wù)中表現(xiàn)較差,這表明未來大模型的發(fā)展仍然需要重視多步推理的能力提升。
五、 大模型中文高考數(shù)學(xué)復(fù)雜推理專項(xiàng)評(píng)測(cè)
如性能雷達(dá)圖所示,復(fù)雜推理模型在中文高考數(shù)學(xué)推理中呈現(xiàn)出以下特點(diǎn):
(1) 在同等參數(shù)規(guī)模下,Skywork-o1-Open-Llama-3.1-8B相比同系列基座模型Meta-Llama-3-8B-Instruct大幅提升了模型的數(shù)學(xué)推理能力;
(2)小型復(fù)雜推理模型在高考數(shù)學(xué)推理上的能力達(dá)到近似大型模型的水平。Skywork-o1-Open-Llama-3.1-8B與32B Qwen QWQ模型和經(jīng)過數(shù)學(xué)方面微調(diào)和強(qiáng)化學(xué)習(xí)的72B Qwen模型相比,其準(zhǔn)確率在各評(píng)測(cè)維度上達(dá)到了近似水平;
(3) 閉源復(fù)雜推理模型OpenAI o1-mini在中文高考數(shù)學(xué)推理中的綜合準(zhǔn)確率稍稍領(lǐng)先,在五個(gè)評(píng)測(cè)維度上優(yōu)于其它模型,在兩個(gè)評(píng)測(cè)維度上落后于其他模型。
如圖所示,復(fù)雜推理大模型的性能隨著問題難度增加呈現(xiàn)明顯下降趨勢(shì),閉源復(fù)雜推理大模型OpenAI o1-mini在處理較難問題上具有明顯優(yōu)勢(shì)。
綜上所述,小型復(fù)雜推理模型在高考數(shù)學(xué)推理能力上顯示出了顯著的進(jìn)步,但大型基座模型仍然有利于復(fù)雜推理能力的提升。對(duì)于難度為4及以上的題目,所有模型都表現(xiàn)欠佳,這表明未來大模型在復(fù)雜推理能力上仍然具有很大提升空間。
六、 總結(jié)
在過去一年里,中文大型模型在學(xué)科知識(shí)以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強(qiáng)。閉源模型在學(xué)科知識(shí)、數(shù)學(xué)推理、語言理解及常識(shí)掌握等方面,相較于開源模型展現(xiàn)出了更出色的性能。盡管閉源模型在部分知識(shí)維度上領(lǐng)先,但在倫理對(duì)齊和安全可控方面,相較于開源模型的優(yōu)勢(shì)并不突出。這一現(xiàn)象提醒我們,在追求模型性能提高的同時(shí),不能忽視倫理和安全性問題。
在致力于提升大型模型知識(shí)能力的同時(shí),還需更加重視價(jià)值對(duì)齊的問題。隨著模型能力的不斷提升,這一問題的重要性愈加凸顯。我們應(yīng)當(dāng)拓展對(duì)大型模型的評(píng)估研究范圍,不應(yīng)僅限于學(xué)科知識(shí)等單一維度,而應(yīng)構(gòu)建更全面、多樣化的評(píng)估標(biāo)準(zhǔn)和體系,以促進(jìn)大型模型的智善協(xié)同發(fā)展。
(文章來源:紅星資本局)
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。