首頁 > AI資訊 > 最新資訊 > DeforGAN:用GAN實現星際爭霸開全圖外掛!

DeforGAN:用GAN實現星際爭霸開全圖外掛!

新火種    2023-09-20
選自arXiv作者:Yonghyun Jeong等機器之心編譯參與:李詩萌、Geek AI對于廣大星際爭霸迷來說,地圖全開作弊代碼「Black sheep wall」應該是再熟悉不過了!如何根據現有狀態預測未知信息是博弈過程中舉足輕重的一環。日前,韓國三星公司的研究人員在星際爭霸游戲中,將預測戰爭迷霧背后的作戰單位信息建模為了一個部分可觀察馬爾科夫決策過程,并使用基于 GAN 的方法實現了當前性能最佳的戰爭迷霧去霧算法。論文地址:https://arxiv.org/abs/2003.01927項目地址:https://github.com/TeamSAIDA/DefogGAN本文提出了 DefogGAN,這是一種推斷即時戰略(Real-Time Strategy,RTS)游戲中戰爭迷霧后的隱藏信息狀態的生成式方法。給定一個部分可觀測的狀態,DefogGAN 可以將游戲的去霧圖像作為預測信息生成。這樣的信息可以創造戰略智能體。DefogGAN 是一種條件 GAN 的變體,它使用了金字塔重建損失,從而在多個特征分辨率尺度上進行優化。本文使用一個大型專業的星際爭霸錄像數據集驗證了 DefogGAN。結果表明 DefogGAN 可以預測敵方建筑物和作戰單位,準確率與職業玩家相當,并且比當前最佳的去霧模型的性能更好。AlphaGo 的成功為人工智能在游戲中的應用(Game AI)帶來了極大的關注。通過深度強化學習訓練的智能體可以在國際象棋、圍棋和 Atari 等經典游戲中輕而易舉地勝過人類。隨著任務環境越來越復雜,實時戰略游戲(RTS)成為了一種評估最先進的學習算法的方式。如今,Game AI 為機器學習帶來了全新的機遇和挑戰。開發 Game AI 的好處十分廣泛,不僅限于游戲應用中。在科學中應用智能體(例如,在有機化學領域中預測的蛋白質折疊)和企業的商業服務(例如,天機器人)的探索,使 Game AI 正走向一個新的時代。在本文中,作者提出的 DefogGAN 采用生成式方方法補全因戰爭迷霧造成的顯示給玩家的不完全信息。本文使用星際爭霸作為實驗場景——這是一款 RTS 游戲,游戲中有三個均衡的種族供玩家選擇,玩家要建立完全不同的游戲風格和戰略。在發行逾二十年后,星際爭霸依然是一款非常受歡迎的電子競技游戲。為了實現讓 Game AI 超越高水平人類玩家的艱巨目標,本文作者使用超過 30,000 場的職業玩家的游戲錄像訓練了 DefogGAN。在星際爭霸中,這樣的目標是很難實現的。因為星際爭霸長期以來一直廣受歡迎,玩家們開發出了各種各樣的成熟的游戲策略,除此之外,在電競現場和暴雪戰網(Battle.net)中玩家們還廣泛使用了微操技術。圖 1:DefogGAN 預測值和真實值的比較。友方和敵方單位在地圖(黑色)上分別用綠色和紅色表示。DefogGAN 預測出了觀察不到的敵方單位。戰爭迷霧指在某個沒有友方單位的區域中,不能獲得視野和信息,這樣的區域包括所有之前探索過但目前無人值守的區域。部分可觀察馬爾科夫決策過程(Partially Observable Markov Decision Process,POMDP)最適合描述戰爭迷霧問題。一般而言,POMDP 為真實世界中大多數有大量未觀察到的變量的問題提供了一個實用的表達方式。對 Game AI 來說,解決部分可觀察問題是提升性能的關鍵所在。事實上,許多現有的設計智能 Game AI 的方法都會遇到部分可觀察問題。最近,生成模型被用來降低部分可觀察問題的不確定性。利用生成模型的預測結果,智能體的性能得到了提升。然而,生成方法無法完全與頂尖的人類職業玩家的高水平偵察技術匹敵。星際爭霸為研究與 Game AI 相關的復雜 POMDP 問題提供了一個絕佳的平臺。本文作者利用生成對抗網絡,建立了 DefogGAN,它可以根據生成的逼真信息準確預測隱藏在戰爭迷霧中的對手的狀態。根據經驗,本文作者發現,GAN 比變分自編碼器(Variational Autoencoder,VAE)生成的圖像更逼真。為了生成去除戰爭迷霧的游戲狀態,本文作者將原始的 GAN 生成器修改為編碼器-解碼器網絡。從原理上講,DefogGAN 是條件 GAN 的變體。通過使用跳躍連接,DefogGAN 生成器利用根據編碼器-解碼器結構學習到的殘差進行訓練。除了 GAN 的對抗損失,本文作者還設置了有霧和去霧游戲狀態間的重建損失,來強調單位位置和數量的回歸。本文的貢獻如下:開發了 DefogGAN,可以解析有戰爭迷霧的游戲狀態,得到有用的獲勝信息。DefogGAN 是最早的基于 GAN 處理星際爭霸中的戰爭迷霧問題的方法;利用跳躍連接進行殘差學習,在不引入任何循環結構的情況下,DefogGAN 以前饋的方式包含過去的信息(序列),更適用于實時使用的情況;本文作者在模型簡化實驗和其它設置(如針對提取出的游戲片段和當前最先進的去霧策略進行測試)中,對 DefogGAN 進行了實證驗證。本文涉及的數據集、源代碼和預訓練網絡對公眾開放,可以在線訪問。在 t 時刻,DefogGAN 根據部分可觀察(有霧)狀態,生成了完全的觀察(去霧)狀態。在星際爭霸中,完全觀察狀態包括在給定時間下,所有友方和敵方單元的確切位置。圖 2 展示了 DefogGAN 的架構。本文作者對當前的部分可觀察狀態的輸入計算得到的特征圖進行求和池化。在過去的觀測結果的特征圖進入生成器前,要和當前狀態累積并拼接。本文作者用預測的可觀察狀態和實際的完全觀察狀態間的重建損失和判別器的對抗損失訓練生成器。圖 2:DefogGAN 的架構概覽。DefogGAN 的生成器采用了 VGG 網絡的風格。卷積核的大小固定為 3*3。當特征圖大小減少一半時,卷積核的數量增加一倍。DefogGAN 沒有使用任何空間池化層或全連接層,而是用了卷積層來保留從輸入到輸出的空間信息。DefogGAN 的生成器包括編碼器、解碼器和通道組合層。編碼器采用 32*32*82 的輸入,利用卷積神經網絡(Convolutional Neural Networks,CNN)提取出隱藏在戰爭迷霧中的語義特征。每個卷積層都用了批量歸一化和修正線性單元(ReLU)來實現非線性轉換。解碼器利用從語義上提取出的編碼器特征生成預測數據。解碼過程將數據重構為高維數據,再利用轉置卷積運算完成推斷。解碼器產生的輸出尺寸與輸入相同。考慮到因初始通道尺寸大導致的學習速度大,我們沒有使用像 ResNet 那么多的卷積層。表 1:x_t 和 x_t 的混淆矩陣。使用到的測試數據超過 10,000 幀,表中為平均值。表 1 總結了 DefogGAN 輸入-輸出的統計信息,包括部分可觀察狀態 x_t、累積的部分可觀察狀態 x_t,和真實值 y_t。平均而言,在部分可觀察狀態中可以看到 54% 的單位,在累積的部分可觀察狀態中可以看到 83% 的單位。注意,累積的部分可觀察狀態造成了第一類型錯誤(假陽性),因為累積狀態包含此刻已經不再符合實際情況的、移動的單元之前的位置。在給定這樣的輸出空間時,去霧問題需要在可能的 67,584(32*32*66)個空間中平均選出 141 個空間。圖 4:預測結果的可視化。最左側是累積的部分可觀察狀態(x_t)。第二列是部分可觀察狀態 x_t。第三列是 CED(當前最佳去霧器)的預測結果。4-7 列分別是 DCGAN、BEGAN、WGAN-GP 和 cWGAN 的生成結果。DefogGAN 的結果呈現在第八列,最后一列是真實值。行表示用于評估的錄像。表 4:DefogGAN 和其它模型的準確率比較結果。圖 4 中的可視化結果可以有效地解釋 DefogGAN 的預測性能。隨機選擇四組錄像,給出每個模型預測的、去霧后的完全觀察狀態。例如,在錄像 4 中,在部分可觀察狀態 x_t 的右下角看不到紅色的敵方單位。同時,在累積的部分可觀察狀態 x_t 中只能看到敵方單位的子集。同時使用觀察結果和累積觀察結果,DefogGAN 可以生成的完全可觀察狀態 y_t 看起來和真實值非常相似。CED 也生成相當可信的完整狀態,但 DefogGAN 生成了更準確的結果。WGAN-GP 在沒有重建損失的情況下也生成了可信的完整狀態,但有生成假陽性(低精度)結果的傾向。cWGAN(一種使用了重建損失的 WGAN-GP 變體)似乎降低了假陽性率,但 DefogGAN 的預測結果仍然更好。
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章