不會(huì)打游戲的大模型不是好AI?甲骨文最強(qiáng)模型用《寶可夢(mèng)》當(dāng)“期末考”
財(cái)聯(lián)社2月25日訊(編輯 馬蘭)甲骨文周一發(fā)布了其最強(qiáng)模型Claude 3.7 Sonnet,據(jù)甲骨文稱(chēng),該模型同時(shí)具備推理能力和傳統(tǒng)實(shí)時(shí)生成文本的能力,是市面上唯一的混合模型。
Claude 3.7 Sonnet的一個(gè)獨(dú)特功能是其能夠進(jìn)行拓展思考,與OpenAI的o3-mini和Deepseek R1一樣,它可以在增加計(jì)算和時(shí)間成本的基礎(chǔ)上來(lái)推理更具挑戰(zhàn)性的問(wèn)題。
而測(cè)試Claude 3.7 Sonnet推理能力的一項(xiàng)重要測(cè)試就是打游戲。
據(jù)甲骨文周一的博客文章顯示,該公司在《精靈寶可夢(mèng)(紅)》測(cè)試了Claude 3.7 Sonnet,為模型配備了基本內(nèi)存、屏幕像素輸入和功能調(diào)用,以便模型可以連續(xù)闖關(guān)并不受模型的上下文限制。
好消息是,3.7版本的模型與3.0版本相比“大有出息”。上一個(gè)版本3.0連離開(kāi)游戲新手村都做不到,而3.7已經(jīng)成功走到寶可夢(mèng)道館Boss身前,并擊敗道館領(lǐng)袖贏得了徽章。
不過(guò),甲骨文并未公布3.7花費(fèi)了多少計(jì)算能力才做到這一步,以及每闖完一關(guān)所耗費(fèi)的時(shí)間。甲骨文只透露,3.7 Sonnet執(zhí)行了35000次操作才打到最后一位道館館主Surge處。
AI也得會(huì)打游戲利用游戲作為人工智能模型的基準(zhǔn)測(cè)試實(shí)際上在業(yè)內(nèi)也并不罕見(jiàn),加州理工大學(xué)和英偉達(dá)的一支團(tuán)隊(duì)此前就推出過(guò)Voyager組件,與GPT-4交互來(lái)攻略另一款熱門(mén)游戲《我的世界》。
Voyager據(jù)介紹包括三個(gè)關(guān)鍵模塊:最大化探索的自動(dòng)課程;用于存儲(chǔ)和檢索復(fù)雜行為的技能庫(kù)與生成可執(zhí)行代碼的新迭代提示機(jī)制。據(jù)研究團(tuán)隊(duì)介紹,Voyager表現(xiàn)出強(qiáng)大的情境學(xué)習(xí)能力,獲得的獨(dú)特物品、行近距離以及解鎖成就的速度都優(yōu)于基準(zhǔn)人工智能模型。
上周,微軟也官宣加入了AI打游戲的潮流之中。微軟推出了一款模型Muse可以生成游戲視覺(jué)效果和控制器輸入,稱(chēng)其可以支持人們?cè)谠O(shè)計(jì)游戲時(shí)的創(chuàng)造力,并已經(jīng)在多人競(jìng)技戰(zhàn)斗游戲《Bleeding Edge》中進(jìn)行訓(xùn)練。
Gaming AI公司副總裁Fatima Kardar表示,Muse的突破之處在于它對(duì)3D游戲的詳細(xì)了解,包括游戲物理以及游戲如何對(duì)玩家的控制操作做出反應(yīng)。這意味著該模型能夠創(chuàng)建一致且多樣化的游戲玩法,進(jìn)一步幫助到游戲創(chuàng)作者。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。