大模型玩《寶可夢(mèng)》達(dá)人類水平!網(wǎng)友喊話世界冠軍:是時(shí)候一較高下了
基于大模型的Agent會(huì)玩寶可夢(mèng)了,人類水平的那種!
名為PokéLLMon,現(xiàn)在它正在天梯對(duì)戰(zhàn)中與人類玩家一較高下:
PokéLLMon能靈活調(diào)整策略,一旦發(fā)現(xiàn)攻擊無效,立刻改變行動(dòng):
PokéLLMon還會(huì)運(yùn)用人類式的消耗戰(zhàn)術(shù),頻繁給對(duì)方寶可夢(mèng)下毒,并一邊恢復(fù)自身HP。
不過面對(duì)強(qiáng)敵,PokéLLMon也會(huì)“慌亂”逃避戰(zhàn)斗,連續(xù)切換寶可夢(mèng):
最終對(duì)戰(zhàn)結(jié)果是,PokéLLMon在隨機(jī)天梯賽中取得49%的勝率,與專業(yè)玩家的邀請(qǐng)賽中取得56%的勝率,游戲戰(zhàn)略和決策水平接近人類。
網(wǎng)友看到PokéLLMon的表現(xiàn)也很意外,直呼:
甚至有網(wǎng)友喊話寶可夢(mèng)大滿貫選手、世錦賽冠軍Wolfey Glick,來和這個(gè)AI一較高下:
這究竟是如何做到的?
PokéLLMon大戰(zhàn)人類
PokéLLMon由佐治亞理工學(xué)院研究團(tuán)隊(duì)提出:
具體來說,他們提出了三個(gè)關(guān)鍵策略。
一是上下文強(qiáng)化學(xué)習(xí)(In-Context Reinforcement Learning)。
利用從對(duì)戰(zhàn)中即時(shí)獲得的文字反饋?zhàn)鳛橐环N新的“獎(jiǎng)勵(lì)”輸入,不需要訓(xùn)練就可以在線迭代完善和調(diào)整PokéLLMon的決策生成策略。
其中反饋內(nèi)容包括:回合HP變化、攻擊效果、速度優(yōu)先級(jí)、招式額外效果等。
比如PokéLLMon反復(fù)使用相同的攻擊招式,但由于對(duì)方寶可夢(mèng)具有“干燥皮膚”的能力,對(duì)其沒有任何效果。
在第三回合中對(duì)戰(zhàn)中,通過即時(shí)上下文強(qiáng)化學(xué)習(xí),PokéLLMon隨后選擇更換寶可夢(mèng)。
二是知識(shí)增強(qiáng)生成(Knowledge-Augmented Generation)。
通過檢索外部知識(shí)源作為額外輸入,融入到狀態(tài)描述中。比如檢索類型關(guān)系、招式數(shù)據(jù),模擬人類查詢寶可夢(mèng)圖鑒,來減少未知知識(shí)導(dǎo)致的“幻覺”問題。
由此一來,PokéLLMon可以準(zhǔn)確理解并應(yīng)用招式效果。
比如面對(duì)犀牛進(jìn)化形態(tài)的地面攻擊,PokéLLMon未選擇更換寶可夢(mèng),而是施展“電磁飄浮”,該技能在五回合內(nèi)成功抵御地面攻擊,使犀牛的“地震”技能無效。
三是一致性動(dòng)作生成(Consistent Action Generation)。
研究人員發(fā)現(xiàn),當(dāng)PokéLLMon面對(duì)強(qiáng)大對(duì)手時(shí),思維鏈(CoT)的推理方式會(huì)導(dǎo)致它因“恐慌”而頻繁更換道具或?qū)毧蓧?mèng)。
△PokéLLMon害怕,不斷切換寶可夢(mèng)
而通過一致性動(dòng)作生成,可以獨(dú)立多次生成行動(dòng),投票出最一致的,從而緩解“恐慌”。
值得一提的是,研究人員所用的模型自主和人類作戰(zhàn)的寶可夢(mèng)對(duì)戰(zhàn)環(huán)境,基于Pokemon Showdown和poke-env實(shí)現(xiàn),目前已開源。
為了測(cè)試PokéLLMon的對(duì)戰(zhàn)能力,研究人員用它分別與隨機(jī)天梯賽玩家和一名擁有15年經(jīng)驗(yàn)的專業(yè)玩家對(duì)戰(zhàn)。
結(jié)果,PokéLLMon與天梯隨機(jī)玩家的勝率為48.57%,與專業(yè)玩家的邀請(qǐng)對(duì)戰(zhàn)勝率為56%。
總的來說,PokéLLMon的優(yōu)勢(shì)在于:能準(zhǔn)確選擇有效招式,統(tǒng)一使用一個(gè)寶可夢(mèng)擊倒全部對(duì)手;展現(xiàn)出類人的消耗戰(zhàn)略,使對(duì)手中毒后再拖延回血。
不過研究人員也指出了PokéLLMon的不足之處,面對(duì)玩家的消耗戰(zhàn)略(拖延回血)很難應(yīng)對(duì):
容易被玩家的迷惑戰(zhàn)術(shù)誤導(dǎo)(迅速切換寶可夢(mèng),巧妙使PokéLLMon浪費(fèi)強(qiáng)化攻擊機(jī)會(huì)):
團(tuán)隊(duì)簡(jiǎn)介
三位作者均為華人學(xué)者。
論文一作胡思昊,現(xiàn)為佐治亞理工學(xué)院計(jì)算機(jī)科學(xué)博士生,本科畢業(yè)于浙江大學(xué),曾在新加坡國立大學(xué)擔(dān)任研究助理。
研究興趣包括用于區(qū)塊鏈安全和推薦系統(tǒng)的數(shù)據(jù)挖掘算法及系統(tǒng)。
作者Tiansheng Huang,同為佐治亞理工學(xué)院計(jì)算機(jī)科學(xué)博士生,華南理工大學(xué)校友。
研究興趣包括分布式機(jī)器學(xué)習(xí)、并行與分布式計(jì)算、優(yōu)化算法以及機(jī)器學(xué)習(xí)安全性。
導(dǎo)師劉玲,現(xiàn)為佐治亞理工學(xué)院計(jì)算機(jī)系教授。1982年畢業(yè)于中國人民大學(xué),1993年于荷蘭蒂爾堡大學(xué)獲博士學(xué)位。
劉教授主導(dǎo)分布式數(shù)據(jù)密集系統(tǒng)實(shí)驗(yàn)室(DiSL)的研究工作,專注于大數(shù)據(jù)系統(tǒng)及其分析的多個(gè)方面,如性能、安全和隱私等。
同時(shí)她也是IEEE Fellow,2012年獲得IEEE計(jì)算機(jī)學(xué)會(huì)技術(shù)成就獎(jiǎng),還曾擔(dān)任多個(gè)IEEE和ACM大會(huì)主席。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。