成人无遮挡,九九热在线视频播放,色欲综合一区二区三区

首頁(yè) > AI資訊 > 最新資訊 > 如何測(cè)評(píng)大模型？學(xué)術(shù)派or市場(chǎng)化？這場(chǎng)分享會(huì)給出判斷

如何測(cè)評(píng)大模型？學(xué)術(shù)派or市場(chǎng)化？這場(chǎng)分享會(huì)給出判斷

新火種 2023-10-19

《科創(chuàng)板日?qǐng)?bào)》10月14日訊（記者張洋洋）“面對(duì)大模型市場(chǎng)的高速發(fā)展，我的壓力不是如何使用大模型，而是如何選擇大模型，以及如何識(shí)別相應(yīng)的風(fēng)險(xiǎn)。”在剛剛過(guò)去的2023沙利文新投資大會(huì)上，商湯科技戰(zhàn)略研究主任劉亮在現(xiàn)場(chǎng)分享了這樣一段某商業(yè)銀行技術(shù)負(fù)責(zé)人與他的對(duì)話。

大模型已然成為今年產(chǎn)業(yè)熱點(diǎn)，也正是在這場(chǎng)投資大會(huì)上，沙利文設(shè)立了單獨(dú)的數(shù)字經(jīng)濟(jì)分論壇，11項(xiàng)議程中，AI大模型就占了7項(xiàng)。

在更大范圍的供給市場(chǎng)里，根據(jù)中國(guó)科學(xué)技術(shù)信息研究所今年5月發(fā)布的不完全統(tǒng)計(jì)數(shù)據(jù)，國(guó)內(nèi)10億參數(shù)規(guī)模以上的模型產(chǎn)品數(shù)已達(dá)79個(gè)，頭部科技公司更是早已跑步入場(chǎng)。

但，面對(duì)復(fù)雜的需求，多元且迭代迅速的技術(shù)，以及提供大模型的廠商格局又是如此多變，如何精準(zhǔn)鑒別大語(yǔ)言模型的優(yōu)劣，尋找到最優(yōu)的解決方案從而做出采購(gòu)決策，企業(yè)客戶們又備受其擾。

劉亮說(shuō)，中國(guó)廠商提供了不同的大模型應(yīng)用，但最近他們接觸越來(lái)越多的企業(yè)用戶發(fā)現(xiàn)，這些客戶都很困惑，到底要如何去評(píng)測(cè)和比較大模型？一個(gè)合格的大模型應(yīng)該具備哪些能力？有沒(méi)有一個(gè)可以衡量大模型好壞的基準(zhǔn)？

測(cè)評(píng)是目前而言較為全面的解法。據(jù)劉亮介紹，經(jīng)過(guò)半年的發(fā)展，大模型測(cè)評(píng)市場(chǎng)已經(jīng)形成兩派：一類是傳統(tǒng)的學(xué)術(shù)評(píng)測(cè)集，這個(gè)實(shí)際在ChatGPT之前就已存在；另一類是因ChatGPT火爆而興起的市場(chǎng)化榜單。

學(xué)術(shù)評(píng)測(cè)主要由全球各個(gè)高校或知名廠商主導(dǎo)，這種可以簡(jiǎn)單理解為題庫(kù)考試，用幾萬(wàn)道題甚至幾十萬(wàn)道題去問(wèn)大模型，涵蓋語(yǔ)言分析、閱讀理解、數(shù)學(xué)推理，代碼生成以及安全倫理和價(jià)值觀等方面，從而得到一個(gè)正確率。

在劉亮看來(lái)，這種測(cè)評(píng)方式其實(shí)就是把大模型當(dāng)作人來(lái)看待，它到底有沒(méi)有達(dá)到跟人類智商相當(dāng)?shù)奈恢茫皇强疾炝四Ｐ捅旧淼哪芰Α?/p>

市場(chǎng)化測(cè)評(píng)則是由第三方機(jī)構(gòu)主導(dǎo)，其區(qū)別于學(xué)術(shù)測(cè)評(píng)集的點(diǎn)就在于，會(huì)有橫向?qū)Ρ龋粌H評(píng)估了大模型本身的能力，還對(duì)大模型提供商的綜合能力進(jìn)行評(píng)估，涵蓋算力、數(shù)據(jù)、算法、生態(tài)建設(shè)和戰(zhàn)略愿景等多個(gè)維度。

劉亮表示，通過(guò)市場(chǎng)化榜單測(cè)評(píng)，基本上能夠看清楚當(dāng)下各個(gè)大模型的實(shí)力水平，這也是商湯作為廠商角度會(huì)比較關(guān)注的領(lǐng)域，更愿意去觀察和配合以及合作此類評(píng)測(cè)機(jī)構(gòu)。

不過(guò)，不管何種方式，目前的大模型測(cè)評(píng)還是會(huì)出現(xiàn)同一大模型在不同榜單測(cè)評(píng)結(jié)果得分差異大，甚至業(yè)內(nèi)人稱還有“刷榜”的存在，如此種種一定程度上也反映了目前大模型測(cè)評(píng)的亂象。

對(duì)此，劉亮認(rèn)為，未來(lái)良性的大模型測(cè)評(píng)趨勢(shì)，首先應(yīng)該是“開(kāi)卷閉卷”結(jié)合的方式，避免刷榜和測(cè)評(píng)結(jié)果不夠權(quán)威性的問(wèn)題。其次是主觀題和客觀題相結(jié)合，既要有選擇題去考察大模型本身的能力，至少還要有一些主觀因素去考量其情商等。最后還包括人工閱卷、多輪追問(wèn)等方式，去全面評(píng)測(cè)。

Tags:

大模型模型學(xué)術(shù)

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

如何測(cè)評(píng)大模型？學(xué)術(shù)派or市場(chǎng)化？這場(chǎng)分享會(huì)給出判斷

NVIDIA深度適配通義千問(wèn)大模型，推出艙駕融合大模型解決方案

NVIDIA深度適配通義千問(wèn)大模型推出艙駕融合大模型解決方案

哈啰亮相2024云棲大會(huì)：展示AI整體布局及大模型案例

在線可玩！智譜開(kāi)源圖生視頻模型，網(wǎng)友直呼Amazing！

奧特曼：o1僅僅是“推理模型的GPT-2”；黃仁勛：我給你加速50倍

熱門文章