首頁 > AI資訊 > 行業動態 > 玩轉圍棋、國際象棋、撲克,DeepMind推出通用學習算法SoG

玩轉圍棋、國際象棋、撲克,DeepMind推出通用學習算法SoG

新火種    2023-11-22
2016 年 3 月,一場機器人與圍棋世界冠軍、職業九段棋手李世石展開的圍棋人機大戰受到全球的高度關注。我們知道,最后的結果是 DeepMind 的機器人 AlphaGo 以 4 比 1 的總比分獲勝。這是人工智能領域一個里程碑性的事件,也讓「博弈」成為一個熱門的 AI 研究方向。AlphaGo 之后,DeepMind 又推出了贏得國際象棋的 AlphaZero、擊敗《星際爭霸 II》的 AlphaStar 等等。使用搜索和學習的方法,AI 在許多完美信息博弈中表現出強大的性能,而使用博弈論推理和學習的方法在特定的不完美信息博弈中表現出強大的性能。然而,大多數成功案例有一個重要的共同點:專注于單一博弈項目。例如,AlphaGo 不會下國際象棋,而 AlphaZero 雖然掌握了三種不同的完美信息博弈,但 AlphaZero 無法玩撲克牌,也不清楚能否擴展到不完美信息博弈。此外,現有研究往往會使用特定領域的知識和結構使 AI 實現強大的性能。現在,來自 Google Deepmind 的研究團隊提出了一種利用自我博弈學習、搜索和博弈論推理實現強大博弈性能的通用學習算法 ——Student of Games(SoG)。研究論文發表在《Science Advances》上。

圖片

算法結合了引導式搜索(guided search)、自我對弈(self-play)學習和博弈論推理(game-theoretic reasoning)。實驗結果表明,SoG 可以在大型完美和不完美信息博弈中表現出強大的性能,這是邁向任意環境真正通用算法的重要一步。方法簡介SoG 模型可以在不同的游戲中自由發揮,并教會自己如何與自己的另一個版本進行對戰,能夠學習新策略并逐漸變得更有能力。雖然 AlphaZero 也可以適應完美信息博弈,但 SoG 可以適應完美和不完美信息博弈,從而具有更強的通用性。SoG 采用成長樹虛擬遺憾最小化(growing-tree counterfactual regret minimization,GT-CFR)算法。GT-CFR 算法是一種隨時可以進行局部搜索,非均勻地構建子博弈,并將樹擴展至最相關的未來狀態,同時可以迭代地細化價值與策略。

圖片

此外,SoG 還采用了有效的自我對弈:利用博弈結果和遞歸子搜索來訓練價值與策略網絡,并應用于之前搜索中出現過的情況。SoG 算法通過聲音自我對弈來訓練智能體:每個玩家在面臨決策時,使用配備虛擬價值與策略網絡(Counterfactual Value-and-Policy Network,CVPN)的聲音 GT-CFR 搜索來生成當前狀態的策略,并根據該策略采取行動。

圖片

自我對弈過程會生成兩種類型的訓練數據,用于更新價值與策略網絡,一種是搜索查詢,一種是完整博弈軌跡。在實際應用中,自我對弈數據生成和訓練是并行發生的:參與者生成自我對弈數據(并解決查詢);訓練者學習新網絡并定期更新參與者。實驗結果眾所周知,傳統搜索在不完美信息博弈中存在缺陷,并且評估集中在單一領域(如撲克牌),SoG 填補了這一空白。通過重新解決子博弈,SoG 保證可以找到近似納什均衡,并且在小型博弈中保證可計算性。具體來說,SoG 在四種不同的游戲中展示了強大的性能:兩種完美信息博弈(國際象棋和圍棋)和兩種不完美信息博弈(撲克和 Scotland Yard)。值得注意的是,與撲克相比,Scotland Yard 的搜索范圍和游戲長度要長得多,需要長期規劃。SoG 與 AlphaZero 一樣,利用最少的領域知識,將搜索與自我對弈相結合。與 MCTS 不同,SoG 的搜索算法基于虛擬遺憾最小化,對完美和不完美信息博弈都是有效的。下圖展示了 SoG 在不同數量 GT-CFR 下的可利用性。

圖片

A 表為 Leduc 撲克,B 表為蘇格蘭場下圖展示了 SoG 隨著神經網絡評估次數的增加與 AlphaZero 可擴展性的比較,測量方式為相對 Elo 評分尺度。

圖片

A 表為國際象棋,B 表為圍棋
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章