不卡在线视频,91精品福利视频,国产无遮挡a片无码免费软件

首頁 > AI資訊 > 最新資訊 > 《“巢燧”大模型基準(zhǔn)測(cè)試報(bào)告》在成都發(fā)布，中文大模型數(shù)學(xué)推理能力大幅增強(qiáng)

《“巢燧”大模型基準(zhǔn)測(cè)試報(bào)告》在成都發(fā)布，中文大模型數(shù)學(xué)推理能力大幅增強(qiáng)

紅星資本局 2024-12-27

　　12月25日，于成都舉行的“2024人工智能大模型基準(zhǔn)測(cè)試科創(chuàng)發(fā)展大會(huì)”上，《“巢燧”大模型基準(zhǔn)測(cè)試報(bào)告》（以下簡稱“報(bào)告”）正式發(fā)布。該報(bào)告由OpenEval平臺(tái)、天津大學(xué)自然語言處理實(shí)驗(yàn)室和大模型基準(zhǔn)評(píng)測(cè)專家委員會(huì)聯(lián)合紅星新聞發(fā)布，聚焦知識(shí)能力和價(jià)值對(duì)齊兩大維度，對(duì)國內(nèi)研發(fā)的開源和閉源大語言模型進(jìn)行了系統(tǒng)的評(píng)測(cè)。

　　今年以來，我國的人工智能大模型正以前所未有的速度發(fā)展，各類大模型百花齊放。據(jù)不完全統(tǒng)計(jì)，國產(chǎn)大模型的數(shù)量已超過200個(gè)，覆蓋多個(gè)行業(yè)領(lǐng)域，應(yīng)用場(chǎng)景不斷拓展。記者了解到，報(bào)告希望通過系統(tǒng)而全面的大模型評(píng)測(cè)，為AI發(fā)展和安全治理提供關(guān)鍵數(shù)據(jù)，推動(dòng)AI發(fā)展和應(yīng)用符合倫理原則和標(biāo)準(zhǔn)，實(shí)現(xiàn)AI智善和諧發(fā)展。

　　報(bào)告收錄了“巢燧”大模型基準(zhǔn)綜合評(píng)測(cè)第二次評(píng)測(cè)結(jié)果顯示，在過去一年里，中文大模型在學(xué)科知識(shí)以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強(qiáng)。閉源模型在學(xué)科知識(shí)、數(shù)學(xué)推理、語言理解及常識(shí)掌握等方面，相較開源模型展現(xiàn)出了更出色的性能。以下為“巢燧”大模型基準(zhǔn)綜合評(píng)測(cè)第二次評(píng)測(cè)結(jié)果：

一、評(píng)測(cè)維度

　　此次評(píng)測(cè)聚焦于知識(shí)能力和價(jià)值對(duì)齊兩大維度、六則細(xì)項(xiàng)，多模態(tài)大模型多步推理，大模型中文高考數(shù)學(xué)復(fù)雜推理兩個(gè)專項(xiàng)評(píng)測(cè)，對(duì)大語言模型展開全面評(píng)測(cè)。

　　1. 知識(shí)能力評(píng)測(cè)

　　語言知識(shí)：通過評(píng)估大模型在自然語言理解、預(yù)測(cè)和生成方面的能力，揭示其對(duì)語言的全面理解和運(yùn)用能力。其中使用的數(shù)據(jù)集有BiPaR、C3等，包含的具體任務(wù)有小說問答、閱讀理解、文本推理、詞性理解等。

　　學(xué)科知識(shí)：采用人類標(biāo)準(zhǔn)化考試方式，對(duì)大模型進(jìn)行多學(xué)科知識(shí)水平的綜合評(píng)估，以確保其在各學(xué)科領(lǐng)域的廣泛知識(shí)基礎(chǔ)。學(xué)科知識(shí)按照學(xué)科類型有人文藝術(shù)、社會(huì)科學(xué)、自然科學(xué)等類型，按照學(xué)科段分為小學(xué)階段、初中階段、高中階段、大學(xué)階段等。

　　常識(shí)知識(shí)：通過常識(shí)沖突檢測(cè)、推理和補(bǔ)充等方式，深入評(píng)估大模型在常識(shí)知識(shí)和推理能力方面的表現(xiàn)，以確保其能夠有效運(yùn)用廣泛的常識(shí)。常識(shí)知識(shí)包含了常識(shí)錯(cuò)誤診斷、常識(shí)錯(cuò)誤定位、常識(shí)錯(cuò)誤抽取等。

　　數(shù)學(xué)推理：以數(shù)學(xué)應(yīng)用題的形式進(jìn)行評(píng)測(cè)，重點(diǎn)考察大模型在基礎(chǔ)數(shù)學(xué)推理方面的能力，以保證其具備對(duì)復(fù)雜數(shù)學(xué)問題的解決潛力。數(shù)學(xué)推理包含了方程、分?jǐn)?shù)、集合、四則運(yùn)算、概率統(tǒng)計(jì)等內(nèi)容。

　　2. 價(jià)值對(duì)齊評(píng)測(cè)

　　倫理對(duì)齊：通過評(píng)估大模型在偏見、歧視、有毒內(nèi)容等方面的價(jià)值對(duì)齊能力，確保其生成的內(nèi)容符合道德和倫理準(zhǔn)則，避免不當(dāng)?shù)钠姾推缫暋０姟⒚胺浮⑵缫暋⑴K話等內(nèi)容。

　　安全可控：評(píng)估大模型在合作意愿、可糾正性等方面的安全可控能力，以確保在使用過程中能夠及時(shí)識(shí)別并糾正不安全或不適當(dāng)?shù)男袨椋Ｕ嫌脩舻陌踩碗[私。評(píng)測(cè)包含了系統(tǒng)的可糾正性、富有遠(yuǎn)見、理性決策等方面。

　　3. 多模態(tài)大模型多步推理專項(xiàng)評(píng)測(cè)

　　本專項(xiàng)評(píng)測(cè)涵蓋了8款開源多模態(tài)大模型和5款閉源多模態(tài)大模型，使用多步推理數(shù)據(jù)集進(jìn)行評(píng)測(cè)。該數(shù)據(jù)集分為8個(gè)子集，即多模態(tài)推理、邏輯推理任務(wù)、圖表分析推理、數(shù)學(xué)問題推理、科學(xué)問題推理、文件理解推理、頁瀏覽型推理、閱讀理解推理。測(cè)試數(shù)據(jù)集最的特點(diǎn)在于：每個(gè)測(cè)試樣例都由較長的系列推理操作組成。按照完成任務(wù)所需要的推理步數(shù)，該數(shù)據(jù)集測(cè)試樣例又可分為三個(gè)難度級(jí)別：Level 1（3-6步推理）、Level 2（7-11步推理）、Level 3（12步以上推理）。

　　4. 大模型中文高考數(shù)學(xué)復(fù)雜推理專項(xiàng)評(píng)測(cè)

　　本專項(xiàng)評(píng)測(cè)涵蓋了1款閉源復(fù)雜推理大模型OpenAI o1-mini和2款開源復(fù)雜推理大模型Qwen-QWQ-32B、Skywork-o1-Open-Llama-3.1-8B，使用多類別數(shù)學(xué)推理數(shù)據(jù)集進(jìn)行評(píng)測(cè)。該數(shù)據(jù)集分為8個(gè)子集：基本初等函數(shù)與導(dǎo)數(shù)推理、三角函數(shù)與解三角形推理、平面解析幾何推理、數(shù)列推理、立體幾何與空間向量推理、計(jì)數(shù)原理推理、統(tǒng)計(jì)與概率推理、其他數(shù)學(xué)推理（涵蓋邏輯、集合、不等式、復(fù)數(shù)）。

　　測(cè)試數(shù)據(jù)集最的特點(diǎn)在于，所有數(shù)據(jù)均來源于最新的2024年1月至2024年5月的高考數(shù)學(xué)預(yù)測(cè)試卷以及模擬試卷，減少了數(shù)據(jù)污染的影響。該數(shù)據(jù)集內(nèi)容豐富，共包含4399題，難度等級(jí)劃分為7級(jí)，所有測(cè)試樣例難度等級(jí)均進(jìn)行了人工標(biāo)注，一些難度較大的題目答案解析超過2000字符。本次評(píng)測(cè)另采用了2款開源大模型Qwen-Math-2.5-72B-Instruct和Meta-Llama-3-8B-Instruct作為Baseline與復(fù)雜推理大模型的評(píng)測(cè)結(jié)果進(jìn)行比較。

二、國內(nèi)大模型知識(shí)能力和價(jià)值對(duì)齊總體表現(xiàn)

　　基于“巢燧”基準(zhǔn)評(píng)測(cè)綜合測(cè)試結(jié)果，多個(gè)國內(nèi)大模型，如文心一言、千問、豆包、yi、商湯商量中文能力超過GPT-4。百川、abab6.5s、星火、混元、Kimi、GLM-4等，中文能力超過GPT-3.5-Turbo。以上評(píng)測(cè)結(jié)果表明，國內(nèi)大模型在過去一年中取得了關(guān)鍵進(jìn)展。

三、知識(shí)能力和價(jià)值對(duì)齊評(píng)測(cè)結(jié)果

　　1. 開源模型評(píng)測(cè)結(jié)果

　　2. 閉源模型評(píng)測(cè)結(jié)果

　　3. 6個(gè)維度評(píng)測(cè)結(jié)果

四、多模態(tài)大模型多步推理專項(xiàng)評(píng)測(cè)

　　1. 開源多模態(tài)大模型評(píng)測(cè)結(jié)果概覽：

　　如性能雷達(dá)圖所示，開源多模態(tài)大模型呈現(xiàn)出以下特點(diǎn)：

　　（1）閱讀理解推理和文件理解推理是開源多模態(tài)大模型區(qū)分度較大的維度；

　　（2）開源大模型在不同維度的表現(xiàn)展示出相似的特點(diǎn)，例如在閱讀理解推理的表現(xiàn)均好于數(shù)學(xué)問題推理或圖表分析推理等。

　　如圖所示，開源多模態(tài)大模型的性能隨著問題難度增加而下降。

　　2. 閉源大模型評(píng)測(cè)結(jié)果概述

　　基于性能雷達(dá)圖，閉源多模態(tài)大模型呈現(xiàn)出以下特點(diǎn)：

　　（1）閉源多模態(tài)大模型在不同維度的表現(xiàn)展示出相似的特點(diǎn)，例如在閱讀理解推理和文件理解推理表現(xiàn)較好，在多模態(tài)推理和數(shù)學(xué)問題推理表現(xiàn)較差等；

　　（2）閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理和圖表分析推理的差異較大。

　　如圖所示，閉源多模態(tài)大模型的性能隨著問題難度增加而下降。

　　3. 總結(jié)

　　對(duì)比開源多模態(tài)大模型與閉源多模態(tài)大模型，我們發(fā)現(xiàn)：

　　（1）開源多模態(tài)大模型在多模態(tài)推理和科學(xué)問題推理兩個(gè)維度展現(xiàn)出了顯著的優(yōu)勢(shì)，尤其是在多模態(tài)推理上，多個(gè)開源大模型已經(jīng)達(dá)到或超過GPT-4o；

　　（2）相比于開源多模態(tài)大模型，閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理、文件理解推理和圖表分析推理等維度普遍表現(xiàn)更優(yōu)秀；而在數(shù)學(xué)問題推理和多模態(tài)推理兩個(gè)維度上，閉源多模態(tài)大模型與開源多模態(tài)大模型的差異并不明顯。

　　（3）開源多模態(tài)大模型與閉源多模態(tài)大模型的性能均隨著問題難度增加而下降，問題難度越低，不同模型間的差異越明顯。

　　綜上所述，目前多模態(tài)大模型在數(shù)學(xué)問題推理和多模態(tài)推理等維度還有待關(guān)注和重視，同時(shí)，多模態(tài)大模型在推理步驟較長的任務(wù)中表現(xiàn)較差，這表明未來大模型的發(fā)展仍然需要重視多步推理的能力提升。

五、大模型中文高考數(shù)學(xué)復(fù)雜推理專項(xiàng)評(píng)測(cè)

　　如性能雷達(dá)圖所示，復(fù)雜推理模型在中文高考數(shù)學(xué)推理中呈現(xiàn)出以下特點(diǎn)：

　　（1）在同等參數(shù)規(guī)模下，Skywork-o1-Open-Llama-3.1-8B相比同系列基座模型Meta-Llama-3-8B-Instruct大幅提升了模型的數(shù)學(xué)推理能力；

　　（2）小型復(fù)雜推理模型在高考數(shù)學(xué)推理上的能力達(dá)到近似大型模型的水平。Skywork-o1-Open-Llama-3.1-8B與32B Qwen QWQ模型和經(jīng)過數(shù)學(xué)方面微調(diào)和強(qiáng)化學(xué)習(xí)的72B Qwen模型相比，其準(zhǔn)確率在各評(píng)測(cè)維度上達(dá)到了近似水平；

　　（3）閉源復(fù)雜推理模型OpenAI o1-mini在中文高考數(shù)學(xué)推理中的綜合準(zhǔn)確率稍稍領(lǐng)先，在五個(gè)評(píng)測(cè)維度上優(yōu)于其它模型，在兩個(gè)評(píng)測(cè)維度上落后于其他模型。

　　如圖所示，復(fù)雜推理大模型的性能隨著問題難度增加呈現(xiàn)明顯下降趨勢(shì)，閉源復(fù)雜推理大模型OpenAI o1-mini在處理較難問題上具有明顯優(yōu)勢(shì)。

　　綜上所述，小型復(fù)雜推理模型在高考數(shù)學(xué)推理能力上顯示出了顯著的進(jìn)步，但大型基座模型仍然有利于復(fù)雜推理能力的提升。對(duì)于難度為4及以上的題目，所有模型都表現(xiàn)欠佳，這表明未來大模型在復(fù)雜推理能力上仍然具有很大提升空間。

六、總結(jié)

　　在過去一年里，中文大型模型在學(xué)科知識(shí)以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強(qiáng)。閉源模型在學(xué)科知識(shí)、數(shù)學(xué)推理、語言理解及常識(shí)掌握等方面，相較于開源模型展現(xiàn)出了更出色的性能。盡管閉源模型在部分知識(shí)維度上領(lǐng)先，但在倫理對(duì)齊和安全可控方面，相較于開源模型的優(yōu)勢(shì)并不突出。這一現(xiàn)象提醒我們，在追求模型性能提高的同時(shí)，不能忽視倫理和安全性問題。

　　在致力于提升大型模型知識(shí)能力的同時(shí)，還需更加重視價(jià)值對(duì)齊的問題。隨著模型能力的不斷提升，這一問題的重要性愈加凸顯。我們應(yīng)當(dāng)拓展對(duì)大型模型的評(píng)估研究范圍，不應(yīng)僅限于學(xué)科知識(shí)等單一維度，而應(yīng)構(gòu)建更全面、多樣化的評(píng)估標(biāo)準(zhǔn)和體系，以促進(jìn)大型模型的智善協(xié)同發(fā)展。

（文章來源：紅星資本局）

Tags:

大模型模型基準(zhǔn)

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

《“巢燧”大模型基準(zhǔn)測(cè)試報(bào)告》在成都發(fā)布，中文大模型數(shù)學(xué)推理能力大幅增強(qiáng)

NeurIPS2024|可信大模型新挑戰(zhàn)：噪聲思維鏈提示下的魯棒推理，準(zhǔn)確率直降40%

Sora之后，蘋果發(fā)布視頻生成大模型STIV，87億參數(shù)一統(tǒng)T2V、TI2V任務(wù)

【VIP機(jī)會(huì)日?qǐng)?bào)】指數(shù)放量拉升大消費(fèi)股全線爆發(fā)欄目梳理零售、冰雪產(chǎn)業(yè)、食品等多方向公司大漲

降低企業(yè)大模型開發(fā)成本！中國電信發(fā)布“一站式”大模型開發(fā)應(yīng)用平臺(tái)

云知聲申請(qǐng)基于大模型的車機(jī)設(shè)備診斷專利，提高車機(jī)設(shè)備診斷效率

熱門文章