論文獲NeurIPSPoster!俞揚團隊揭示強化學習記憶池最優利用方法
編輯:好困
【新智元導讀】在剛剛結束的NeurIPS 2021上,俞揚團隊首次揭示了深度強化學習「記憶池」的最優利用方法。那么,在南京大學人工智能學院做科研又是怎樣的一種體驗呢?「記憶池」是深度強化學習的基本部件,但多年以來如何最優利用記憶池仍然未知。
在剛剛閉幕的機器學習國際頂級會議NeurIPS 2021上,南京大學人工智能學院獨立完成的工作「Regret Minimization Experience Replay in Off-Policy Reinforcement Learning」,首次揭示了深度強化學習「記憶池」的最優利用方法。

https://openreview.net/forum?id=5AixAJweEyC
該工作由俞揚教授指導,其共同第一作者,2018級本科生薛正海,是南大人工智能學院的首屆本科生。
本文對論文工作進行了總結,并采訪了薛正海同學在南大人工智能學院學習的體驗。
從本質出發,解決深度強化學習難題
什么是強化學習
與廣為人知的人臉識別技術不同,強化學習并非通過帶有標簽的數據,而是考慮一個處在環境中的智能體,通過智能體與環境的交互進行學習。
這就類似于人類的嬰兒,他會觀察、傾聽、觸摸所在的環境,收獲環境的反饋,來認識這個世界,改變自己的行為。
2016年AlphaGo運用了這項技術,在圍棋項目中戰勝了人類選手,也讓強化學習這項技術獲得了空前的曝光度。
經過近年來的發展,強化學習技術在許多環境中都取得了超越人類的決策水平,也被認為是實現通用人工智能的一種重要途徑。

圖1. 強化學習與環境交互的過程
強化學習的記憶池
人類會記住自己經歷過的事情,通過回憶這些經歷,進行學習。與此類似,強化學習將智能體與環境交互的數據存入記憶池,再從記憶池中取出數據,從而訓練智能體。
自記憶池這個概念提出一來,就產生了一個問題,我們應當如果利用記憶池中的數據?最直接的做法我們把記憶池中的數據認為是同等重要的,在學習過程中所有的記憶擁有相同的權重。
這也正是2015年第一個能玩Atari游戲的「深度強化學習」所采用的方法。
但是這個做法是不是最好的呢?
如果我們從我們人類自身角度來看,至少我們人類并不是所有的記憶都有相同的權重,首先一般而言我們對更近時間的記憶會更清晰,時間久遠的記憶就更模糊,其次就是某些事情我們會印象深刻,另外一些事情我們很快就會忘記。
這是因為,并不是所有記憶都是同等重要的,重點關注關鍵的記憶,忽略意義不大的記憶,是利用好我們記憶的重點。
那么,我們人類的直覺對于強化學習來說是不是適用的呢?強化學習又如何對于記憶池中的數據進行更好的利用?
自記憶池出現以來,學術界就開始關注記憶池的數據利用問題。尤其隨著深度強化學習的興起,記憶池越來越大,問題也越來越緊迫。
2015年,Schaul等人從優化角度上來審視這個問題,設計了優先級記憶回放機制(PER)。僅此一項改進,就在Atari游戲上取得了很大的提升,這說明記憶池的數據利用確實是影響強化學習的性能的一個重要因素。
自此,這方面的研究開始活躍起來。例如,優先級序列記憶回放(PSER)考慮到了強化學習的序列關系;近期記憶增強(ERE)認為相較于時間更久的數據,新采集到的數據更重要;分布修正(DisCor)則選擇在記憶池中避開值學得比較差的地方;無似然重要性采樣(LFIW)認為智能體用當前策略采集的數據更重要。
從本質問題出發,求解最優利用方法
以往研究從不同的角度發明了不同的記憶池利用方案,但是完整的答案仍然缺失,其中的原因在于,它們的出發點忽略了強化學習的最終目標。
強化學習的目標是獲取最高的回報,以此目標作為出發點,就是這項工作的初衷。在這個思想的啟發下,工作構造了針對回放池權重的最大回報優化問題:

其中wk就是歷史記憶的權重。
通過求解這樣一個優化問題,該工作得到了關于最優回放池的結論:
1)如上面提到的LFIW算法的原則,要更多的選取由智能體當前策略采集到的數據。
2)也不能僅僅局限于當前策略,數據的分布要稍微廣一些,也要重視當前策略附近的數據。
3)同DisCor算法原則一樣,要避開值學得較差的地方,避免被優化過程帶偏。
4)類似于PER算法的原則,要更多關注差分誤差較大的地方。
這個定理給出了實現記憶池數據的最優利用的四項原則,可以看到,以往研究只是其中的一個拼圖。自此,該工作回答了如何最優利用強化學習記憶池的問題。
但是,這幾項原則是在理論層面上的闡述,真正去實現與之相匹配的算法并非一件簡單的事情。
論文中提出了ReMERN和ReMERT兩個算法,這兩個算法對上面提到的四項原則進行了逼近。
從算法設計的角度,ReMERT在環境隨機性較小的情況下近似較為準確,ReMERN則不太受環境隨機性影響。
實驗表明,ReMERT在環境隨機性較小的MuJoCo和Atari環境里取得了SoTA的效果,ReMERN則在環境隨機性較大的MetaWorld上有更好的表現。
在南大人工智能學院讀書的體驗
薛正海同學是南大人工智能學院的首批本科生,目前已在NeurIPS 2021發表共同作者論文一篇,獲得DAI2020自動駕駛競賽第三名,并參與了創新工場與南京大學組織的Deecamp人工智能夏令營等。
關于在南大人工智能學院學習的體驗,筆者采訪了薛同學。
筆者:能說說你感受到的南大的氛圍?
薛正海:在南大的校園、教室、圖書館、實驗室里,南大的師生或多或少都有“誠樸雄偉“的氣質,認認真真做事,踏踏實實做人。這些都時時刻刻影響著我,提醒自己做一個合格的南大人??梢哉f,學校更多是潛移默化的影響著我的成長。
筆者:人工智能學院對你的成長有什么幫助?
薛正海:學院對我的幫助,我認為主要可以體現在扎實的數理和專業基礎、良好的科研環境這兩方面。前期主要是在大一大二安排了很多數理和專業基礎課,打下了扎實的基礎。我們這篇論文涉及到很多微積分、線性代數和概率論的知識,實驗代碼的編寫也與之前的編程訓練密不可分。后期是大三進入專業選修階段后,課程壓力相對小了很多,我有充足的時間在實驗室進行科研工作。此外,周院長每一次的座談會總能給我們鼓舞士氣、堅定信心,班主任、輔導員和教務員老師也都給過我各種各樣的幫助。
筆者:在人工智能學院你是怎么參加科研的?
薛正海:我很早就加入了LAMDA研究所俞揚老師的課題組,一直在了解強化學習的基礎知識。2020年5月左右俞老師安排我與李子牛師兄交流學習。李師兄向我推薦了很多前沿論文,當時我只是囫圇吞棗地讀了,也沒有太多想法,但回過頭看卻是幫助我熟悉了研究領域。2021年的3月我在和劉旭輝師兄討論其中一篇論文時恰好發現了一處漏洞。經過初期的理論和實驗驗證,我們發現這一漏洞可以被一種全新的強化學習算法彌補。得到俞老師的認可后,我們便開展了進一步研究,期間得到了龐竟成、徐峰和蔣圣翊師兄的幫助。我們在5月28日提交了論文,在8月份的時候經歷了rebuttal(與審稿人來回討論),隨后就得到了論文被接受的消息。
筆者:俞老師在科研過程中與你的交流如何?
薛正海:指導老師俞揚老師對我的幫助,首先是俞老師為我們創造了良好的科研環境,比如大一時就讓我加入實驗室旁聽組會,大三時為我在實驗室分配座位——正好在劉旭輝師兄邊上,這次的論文也是從我們的交流討論開始的。當然俞老師實驗室的計算設備也必不可少。然后,關于具體的研究課題、理論、算法和論文,俞老師都會親自指點并提出關鍵意見。在論文和rebuttal提交ddl前,俞老師還和我們一起熬夜修改,精益求精。另外,平時的組會上俞老師時常會對我們進行方法論層面的指導,比如科研怎么選題、實驗環境如何選擇、如何展示自己的工作等。
有關南京大學人工智能學院
南京大學人工智能學院于2018年3月5日成立,是我國C9高校中首個人工智能學院,致力于建設人工智能領域國際一流學術重鎮和拔尖創新人才培養基地。
學院成立三年來取得了長足發展,建設了一支由世界級專家領銜、青年學者蓬勃成長、具有國際影響力的高水平教師隊伍,傾力培養家國情懷厚植、專業能力突出、德智體全面發展的優秀學生,率先發布我國首個人工智能本科專業教育培養體系,首批入選國家一流本科人工智能專業建設點,并在連續15年獲評計算機類第一名的國家重點實驗室、國家基金委創新群體、教育部引智基地、江蘇省優秀協同創新中心等一流平臺的支撐下,在多家著名頭部企業聯合實驗室/研究中心/實訓基地等的助力下,在前沿科技研究、國家重大工程、產學研協同創新方面不斷取得重要進展。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。