首頁(yè) > AI資訊 > 最新資訊 > GPT-4王冠沒掉!Claude3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

GPT-4王冠沒掉!Claude3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

新火種    2024-03-12

Claude 3的競(jìng)技場(chǎng)排名終于來(lái)了:

短短3天內(nèi),20000張投票,將榜單的流量推向空前。

最終,Claude 3最強(qiáng)的“大杯”模型Opus得分1233,成為第一個(gè)能和GPT-4-Turbo一較高下的選手。

“中杯”Sonnet也還不錯(cuò),和GPT-4的兩個(gè)舊版本不相上下。

GPT-4王冠沒掉!Claude 3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

不過總的來(lái)說,還是GPT-4系列占據(jù)上風(fēng)。

Claude 3的表現(xiàn)和宣傳有些許出入。如網(wǎng)友總結(jié):

GPT-4王冠沒掉!Claude 3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

大模型競(jìng)技場(chǎng)出爐,“新王”排第三

Claude 3發(fā)布時(shí)官方的宣傳是全面超過了GPT-4,但沒提是哪個(gè)版本的GPT-4。

GPT-4王冠沒掉!Claude 3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

競(jìng)技場(chǎng)榜單(LMSYS Chatbot Arena Leaderboard)的最新更新,幫咱摸清了。

來(lái)看詳細(xì)情況。

排在第一名的是OpenAI去年11月推出的GPT-4 Turbo,也就是:

GPT-4-1106-preview。

它功能更強(qiáng)價(jià)格也更便宜,具有128k上下文,訓(xùn)練數(shù)據(jù)從此前的2021年9月更新到2023年4月。

與它并列第一的是GPT-4 Turbo最新的版本,今年一月發(fā)布的:

GPT-4-0125-preview。

它的訓(xùn)練數(shù)據(jù)更廣,擴(kuò)展到了2023年12月。

兩者均取得了1251的分?jǐn)?shù)。

接著才是Claude 3(訓(xùn)練數(shù)據(jù)截止到2023年8月)。

它的最強(qiáng)版本Opus得分1233,比GPT-4 Turbo低了18分。

GPT-4王冠沒掉!Claude 3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

這個(gè)差距相比起來(lái)不算太大,畢竟再往下看:

它比GPT-4的兩個(gè)版本(0314、0613)分別高了48分、72分。

至于中等性能的Claude 3 Sonnet,則排名第6,位于GPT-4這兩個(gè)版本之間:

不過只比0314版低5分,大有潛力一舉超越。

GPT-4王冠沒掉!Claude 3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

所以總的來(lái)說,官方宣傳的也算沒大毛病,全面超越老版GPT-4,但離GPT-4 Turbo還有點(diǎn)距離,盡管不算太大。

——從此榜單的評(píng)比機(jī)制等情況來(lái)看,它的結(jié)果還是相當(dāng)有業(yè)內(nèi)認(rèn)可度的。

它由“小羊駝”(Vicuna)的作者團(tuán)隊(duì)發(fā)起。

但裁判官不是“小羊駝”,更不是GPT-4,而是基于人類偏好。

詳細(xì)來(lái)說,也就我們隨機(jī)向兩個(gè)匿名模型提出任意問題,然后評(píng)價(jià)它們各自的回答,把票投給更好的那一個(gè)。

GPT-4王冠沒掉!Claude 3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

如果一輪投不出,咱可以選擇繼續(xù)提問。如果聊天中模型不小心透露了自己的身份,投票則作廢。

特別的,計(jì)分規(guī)則采用Elo機(jī)制來(lái)保證公平(玩王者榮耀的朋友都熟)。

舉個(gè)例子:如果某個(gè)模型輸了,但它的分?jǐn)?shù)不一定低,因?yàn)樗旧韺?shí)力就弱,這是預(yù)料之中。

截止目前,這個(gè)榜單可以說是非常火爆,已經(jīng)有全球73個(gè)模型參與挑戰(zhàn),共收到了網(wǎng)友們37萬(wàn)張+投票。

通義千問擠進(jìn)前10

除了Claude 3,我們?cè)倏纯雌渌憩F(xiàn)亮眼的選手。

首先要提的就是基于Gemini Pro的Bard,排名第四,僅次于GPT-4Turbo和Claude 3。

GPT-4王冠沒掉!Claude 3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

可以說是有點(diǎn)讓人驚喜。

網(wǎng)友戲謔:

并連忙艾特JeffDean和DeepMind負(fù)責(zé)人:喂,加把勁兒啊(旺柴)

GPT-4王冠沒掉!Claude 3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

然后要說的就是阿里通義千問(1.5版本,上個(gè)月發(fā)布)。

它在本次排名中擠進(jìn)了前十、并列第九,是國(guó)內(nèi)選手中表現(xiàn)最好的。

GPT-4王冠沒掉!Claude 3競(jìng)技場(chǎng)人類投票成績(jī)出爐:僅居第三

被它甩在身后的,除了其他國(guó)產(chǎn)選手,還有Claude 2、Gemini Pro和GPT-3.5等等。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章