首頁 > AI資訊 > 最新資訊 > 大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

新火種    2024-04-02

讓大模型直接操縱格斗游戲《街霸》里的角色,捉對PK,誰更能打?

GitHub上一種你沒有見過的船新Benchmark火了。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

與llmsys大模型競技場中,兩個大模型分別輸出答案,再由人類評分不同——街霸Bench引入了兩個AI之間的交互,且由游戲引擎中確定的規(guī)則評判勝負。

這種新玩法吸引了不少網(wǎng)友來圍觀。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

由于項目是在Mistral舉辦的黑客馬拉松活動上開發(fā),所以開發(fā)者只使用OpenAI和Mistral系列模型進行了測試。

排名結(jié)果也很出人意料。

經(jīng)過342場對戰(zhàn)后,根據(jù)棋類、電競常用的ELO算法得出的排行榜如下:

最新版gpt-3.5-turbo成績斷崖式領(lǐng)先,Mistral小杯排第二。更小的模型超過了更大的如GPT-4和Mistral中杯大杯。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

開發(fā)者認為,這種新型基準測試評估的是大模型理解環(huán)境并根據(jù)特定情況采取行動的能力。

與傳統(tǒng)的強化學習也有所不同,強化學習模型相當于根據(jù)獎勵函數(shù)“盲目地”采取不同行動,但大模型完全了解自身處境并有目的的采取行動。

考驗AI的動態(tài)決策力

AI想在格斗游戲里稱王,需要哪些硬實力呢?開發(fā)者給出幾個標準:

反應要快:格斗游戲講究實時操作,猶豫就是敗北腦子要靈:高手應該預判對手幾十步,未雨綢繆思路要野:常規(guī)套路人人會,出奇制勝才是制勝法寶適者生存:從失敗中吸取教訓并調(diào)整策略久經(jīng)考驗:一局定勝負不說明問題,真正的高手能保持穩(wěn)定的勝率大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

具體玩法如下:

每個大模型控制一個游戲角色,程序向大模型發(fā)送屏幕畫面的文本描述,大模型根據(jù)雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等信息做出最優(yōu)決策。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

第一個挑戰(zhàn)是定位人物在場景中的位置,通過檢測像素顏色來判斷。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

由于目前大模型數(shù)學能力還都不太行,直接發(fā)送坐標值效果不好,最終選擇了將位置信息改寫成自然語言描述。

所以對于AI來說,實際上他們在玩的是一種奇怪的文字冒險游戲。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

再把大模型生成的動作招式映射成按鍵組合,就能發(fā)送給游戲模擬器執(zhí)行了。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

在試驗中發(fā)現(xiàn),大模型可以學會復雜的行為,比如僅在對手靠近時才攻擊,可能的情況下使用特殊招式,以及通過跳躍來拉開距離。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

從結(jié)果上可以看出,與其他測試方法不同,在這個規(guī)則下似乎更大的模型表現(xiàn)越差。

開發(fā)者對此解釋到:

在推理上的延遲差距是有意保留的,但后續(xù)或許會加入其他選項。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

后續(xù)也有用戶提交了流行開源模型的對戰(zhàn)結(jié)果,在7B及以下量級的戰(zhàn)斗中,還是7B模型排名更靠前。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

從這個角度看,這種新型基準測試為評估大模型的實用性提供了新思路。

現(xiàn)實世界的應用往往比聊天機器人復雜得多,需要模型具備快速理解、動態(tài)規(guī)劃的本領(lǐng)。

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark

正如開發(fā)者所說,想要贏,要在速度和精度之間做好權(quán)衡。

Tags:
相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章