首頁 > AI資訊 > 最新資訊 > 馬斯克突發(fā)Grok1.5!上下文長度至128k、HumanEval得分超GPT-4

馬斯克突發(fā)Grok1.5!上下文長度至128k、HumanEval得分超GPT-4

新火種    2024-04-01

就在剛剛,馬斯克Grok大模型宣布重大升級。

難怪之前突然開源了Grok-1,因為他有更強(qiáng)的Grok-1.5了,主打推理能力。

來自xAI的官方推送啥也沒說,直接甩鏈接。主打一個“字少事大”(旺柴)

馬斯克突發(fā)Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

新版本Grok有啥突破?

一是上下文長度飆升,從8192增長到128k,和GPT-4齊平。

二是推理性能大幅提升,數(shù)學(xué)能力直接漲點50%之多、HumanEval數(shù)據(jù)集上得分超過GPT-4。

消息一出,評論區(qū)立刻就躁起來了。

馬斯克突發(fā)Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

具體跑分結(jié)果如何,咱們立馬來看。

Grok-1.5來了

首先,對于上下文窗口。

這次是一把直接提升到之前的16倍,來到128k量級。

這也就意味著Grok可以處理更長和更復(fù)雜的提示,同時保持其遵循指令的能力。

在“大海撈針”(NIAH)測試中,Grok-1.5在128K token的上下文中完美檢索嵌入的文本。

整個圖一水兒的藍(lán)色(100%的檢索深度):

馬斯克突發(fā)Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

其次,推理方面。

Grok-1.5處理編程和數(shù)學(xué)相關(guān)任務(wù)的能力大幅提升,全面超越Grok-1、Mistral Large、Claude 2。

數(shù)學(xué)方面,Grok-1.5在MATH基準(zhǔn)測試上得分50.6%,超越中杯Claude 3 Sonnet;GSM8K上得分90%。

編程方面,Grok-1.5在HumanEval基準(zhǔn)測試上得分74.1%,超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4,僅次于大杯Claude 3 Opus。

馬斯克突發(fā)Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

看起來,Grok這次的實力也是不可小覷。

Grok系列與其他大模型相比還有一個特色,不使用通用的Python語言+Pytorch框架。

據(jù)官方介紹,Grok 1.5采用分布式訓(xùn)練架構(gòu),使用Rust、JAX、Kubernetes構(gòu)建。

為了提高訓(xùn)練可靠性和維持正常運(yùn)行時間,團(tuán)隊提出了自定義訓(xùn)練協(xié)調(diào)器,可自動檢測到有問題的節(jié)點,然后剔除。

除此之外,他們還優(yōu)化了checkpointing、數(shù)據(jù)加載和訓(xùn)練重啟等流程,最大限度地減少故障停機(jī)時間。

這,才速速有了現(xiàn)在的Grok 1.5~

更多信息官方也暫時還沒有披露。

可以確定的是,新版本未來幾天會先推送給早期測試者。并按照“老規(guī)矩”,很快將在平臺上線。

有網(wǎng)友表示,Grok進(jìn)步真的相當(dāng)迅速。

馬斯克突發(fā)Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

有人甚至稱馬斯克這是發(fā)了另一個“GPT-4等效模型”,喊著:

馬斯克突發(fā)Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

你期待新版本的Grok嗎?

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章