首頁(yè) > AI資訊 > 最新資訊 > 46.PG算法 強(qiáng)化學(xué)習(xí),又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)或增強(qiáng)學(xué)習(xí)

46.PG算法 強(qiáng)化學(xué)習(xí),又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)或增強(qiáng)學(xué)習(xí)

新火種    2023-09-07

PG算法采用策略梯度。

接下來(lái),我們將詳細(xì)解釋PG算法的策略。與使用Q表格或Q網(wǎng)絡(luò)不同,策略梯度從整體軌跡和游戲輪次的角度來(lái)評(píng)價(jià)策略的優(yōu)劣,而不是僅

策略梯度的優(yōu)化方式采用直接網(wǎng)絡(luò)。此外,PG算法還有其他實(shí)現(xiàn)方式,如蒙特卡洛和時(shí)序差分。

蒙特卡洛是PG算法中一種常用的方法。蒙特卡洛算法通過(guò)強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),每次迭代會(huì)獲取一系列數(shù)據(jù)。根據(jù)數(shù)據(jù)進(jìn)行更新,以達(dá)到最大化獎(jiǎng)勵(lì)的目的。蒙特卡洛算法需要計(jì)算未來(lái)總收益,并通過(guò)最大化策略梯度來(lái)更新參數(shù)。

時(shí)序差分是一種演員-商品化-壓力C模型。我們將在后面詳細(xì)介紹。

HRHR BOX是PG算法中最經(jīng)典的算法之一,其過(guò)程如下:對(duì)于每個(gè)回合和每個(gè)episode,循環(huán)獲取數(shù)據(jù)并更新參數(shù)。對(duì)于每個(gè)episode,計(jì)算未來(lái)總收益并通過(guò)最大化策略梯度來(lái)更新參數(shù)。

HRHR BOX算法需要優(yōu)化參數(shù)0。這種優(yōu)化方法就是梯度上升法,通過(guò)它來(lái)逐步更新策略,從而實(shí)現(xiàn)最優(yōu)控制。在整個(gè) Episode 中,針對(duì)每個(gè)動(dòng)作都會(huì)計(jì)算出相應(yīng)的損失值。與監(jiān)督學(xué)習(xí)類似,策略梯度通過(guò)計(jì)算策略對(duì)不同狀態(tài)的期望輸出和實(shí)際輸出的差距,來(lái)進(jìn)行參數(shù)更新。

在監(jiān)督學(xué)習(xí)中,我們通過(guò)交叉熵?fù)p失函數(shù)來(lái)計(jì)算預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽之間的差距。在神經(jīng)網(wǎng)絡(luò)中,預(yù)測(cè)結(jié)果是輸出的概率,而真實(shí)標(biāo)簽則是實(shí)際輸出。因此,我們可以通過(guò)計(jì)算預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽之間的差距,來(lái)更新參數(shù)。

在策略記錄中,我們會(huì)輸出每個(gè)動(dòng)作的概率。得到概率后,我們需要根據(jù)真實(shí)的狀態(tài)和輸出的概率來(lái)確定每個(gè)狀態(tài)下應(yīng)該采取的動(dòng)作,并計(jì)算出每個(gè)動(dòng)作的概率。

但是,實(shí)際輸出的動(dòng)作是隨機(jī)選擇的。例如,如果選擇向右,輸出的熱向量就是001。如果選擇向左,輸出的熱向量就是010。將神經(jīng)網(wǎng)絡(luò)的輸出與實(shí)際動(dòng)作的熱向量進(jìn)行比較,可以計(jì)算出兩者之間的差距。

這種差距代表著什么?但是,實(shí)際動(dòng)作只是概率輸出,不一定是正確的。因此,我們需要考慮未來(lái)總收益的權(quán)重,即未來(lái)總收益作為權(quán)重。

如果總收益較低,那么權(quán)重就會(huì)降低,回報(bào)對(duì)損失的影響就會(huì)更大。因?yàn)镚T代表著真正意義上的真實(shí)動(dòng)作,代表著未來(lái)總收益,因此機(jī)器的總收益越高,獎(jiǎng)勵(lì)就越高。

因此,我們需要更重視損失函數(shù)的值,因?yàn)樗碇鴻C(jī)器的表現(xiàn)。如果GT越小,說(shuō)明這個(gè)動(dòng)作越不好,損失值就會(huì)越小,優(yōu)化力度也會(huì)更小。

因此,優(yōu)化過(guò)程需要考慮未來(lái)總收益的權(quán)重。最后是loss計(jì)算,即通過(guò)將真實(shí)情況與概率進(jìn)行比較,計(jì)算出獎(jiǎng)勵(lì),并將其與獎(jiǎng)勵(lì)權(quán)重相乘,從而得出損失。對(duì)于每個(gè)動(dòng)作,向左還是不動(dòng)還是向右,都會(huì)有一個(gè)相應(yīng)的動(dòng)作概率,將之前的動(dòng)作與之相乘,得到一個(gè)結(jié)果,例如100,再將其乘以獎(jiǎng)勵(lì),即可得出損失。這部分介紹了策略梯度,但它是基于策略的強(qiáng)化學(xué)習(xí)的基礎(chǔ),因此我們將在下一節(jié)中考慮它。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章