首頁(yè) > AI資訊 > 最新資訊 > 如何測(cè)評(píng)大模型?學(xué)術(shù)派or市場(chǎng)化?這場(chǎng)分享會(huì)給出判斷

如何測(cè)評(píng)大模型?學(xué)術(shù)派or市場(chǎng)化?這場(chǎng)分享會(huì)給出判斷

新火種    2023-10-19

《科創(chuàng)板日?qǐng)?bào)》10月14日訊(記者 張洋洋)“面對(duì)大模型市場(chǎng)的高速發(fā)展,我的壓力不是如何使用大模型,而是如何選擇大模型,以及如何識(shí)別相應(yīng)的風(fēng)險(xiǎn)。”在剛剛過(guò)去的2023沙利文新投資大會(huì)上,商湯科技戰(zhàn)略研究主任劉亮在現(xiàn)場(chǎng)分享了這樣一段某商業(yè)銀行技術(shù)負(fù)責(zé)人與他的對(duì)話。

大模型已然成為今年產(chǎn)業(yè)熱點(diǎn),也正是在這場(chǎng)投資大會(huì)上,沙利文設(shè)立了單獨(dú)的數(shù)字經(jīng)濟(jì)分論壇,11項(xiàng)議程中,AI大模型就占了7項(xiàng)。

在更大范圍的供給市場(chǎng)里,根據(jù)中國(guó)科學(xué)技術(shù)信息研究所今年5月發(fā)布的不完全統(tǒng)計(jì)數(shù)據(jù),國(guó)內(nèi)10億參數(shù)規(guī)模以上的模型產(chǎn)品數(shù)已達(dá)79個(gè),頭部科技公司更是早已跑步入場(chǎng)。

但,面對(duì)復(fù)雜的需求,多元且迭代迅速的技術(shù),以及提供大模型的廠商格局又是如此多變,如何精準(zhǔn)鑒別大語(yǔ)言模型的優(yōu)劣,尋找到最優(yōu)的解決方案從而做出采購(gòu)決策,企業(yè)客戶們又備受其擾。

劉亮說(shuō),中國(guó)廠商提供了不同的大模型應(yīng)用,但最近他們接觸越來(lái)越多的企業(yè)用戶發(fā)現(xiàn),這些客戶都很困惑,到底要如何去評(píng)測(cè)和比較大模型?一個(gè)合格的大模型應(yīng)該具備哪些能力?有沒(méi)有一個(gè)可以衡量大模型好壞的基準(zhǔn)?

測(cè)評(píng)是目前而言較為全面的解法。據(jù)劉亮介紹,經(jīng)過(guò)半年的發(fā)展,大模型測(cè)評(píng)市場(chǎng)已經(jīng)形成兩派:一類是傳統(tǒng)的學(xué)術(shù)評(píng)測(cè)集,這個(gè)實(shí)際在ChatGPT之前就已存在;另一類是因ChatGPT火爆而興起的市場(chǎng)化榜單。

學(xué)術(shù)評(píng)測(cè)主要由全球各個(gè)高校或知名廠商主導(dǎo),這種可以簡(jiǎn)單理解為題庫(kù)考試,用幾萬(wàn)道題甚至幾十萬(wàn)道題去問(wèn)大模型,涵蓋語(yǔ)言分析、閱讀理解、數(shù)學(xué)推理,代碼生成以及安全倫理和價(jià)值觀等方面,從而得到一個(gè)正確率。

在劉亮看來(lái),這種測(cè)評(píng)方式其實(shí)就是把大模型當(dāng)作人來(lái)看待,它到底有沒(méi)有達(dá)到跟人類智商相當(dāng)?shù)奈恢茫皇强疾炝四P捅旧淼哪芰Α?/p>

市場(chǎng)化測(cè)評(píng)則是由第三方機(jī)構(gòu)主導(dǎo),其區(qū)別于學(xué)術(shù)測(cè)評(píng)集的點(diǎn)就在于,會(huì)有橫向?qū)Ρ龋粌H評(píng)估了大模型本身的能力,還對(duì)大模型提供商的綜合能力進(jìn)行評(píng)估,涵蓋算力、數(shù)據(jù)、算法、生態(tài)建設(shè)和戰(zhàn)略愿景等多個(gè)維度。

劉亮表示,通過(guò)市場(chǎng)化榜單測(cè)評(píng),基本上能夠看清楚當(dāng)下各個(gè)大模型的實(shí)力水平,這也是商湯作為廠商角度會(huì)比較關(guān)注的領(lǐng)域,更愿意去觀察和配合以及合作此類評(píng)測(cè)機(jī)構(gòu)。

不過(guò),不管何種方式,目前的大模型測(cè)評(píng)還是會(huì)出現(xiàn)同一大模型在不同榜單測(cè)評(píng)結(jié)果得分差異大,甚至業(yè)內(nèi)人稱還有“刷榜”的存在,如此種種一定程度上也反映了目前大模型測(cè)評(píng)的亂象。

對(duì)此,劉亮認(rèn)為,未來(lái)良性的大模型測(cè)評(píng)趨勢(shì),首先應(yīng)該是“開(kāi)卷閉卷”結(jié)合的方式,避免刷榜和測(cè)評(píng)結(jié)果不夠權(quán)威性的問(wèn)題。其次是主觀題和客觀題相結(jié)合,既要有選擇題去考察大模型本身的能力,至少還要有一些主觀因素去考量其情商等。最后還包括人工閱卷、多輪追問(wèn)等方式,去全面評(píng)測(cè)。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章