北京大學(xué)取得分布式多智能體合作方法專利,通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練
金融界2023年12月18日消息,據(jù)國家知識產(chǎn)權(quán)局公告,北京大學(xué)取得一項(xiàng)名為“一種分布式多智能體合作方法、系統(tǒng)、介質(zhì)及設(shè)備“,授權(quán)公告號CN116578636B,申請日期為2023年5月。
專利摘要顯示,本公開涉及一種分布式多智能體合作方法、系統(tǒng)、介質(zhì)及設(shè)備。該方法包括:對將過去對局歷史中特定步驟數(shù)量的觀測狀態(tài)進(jìn)行存儲以構(gòu)造觀測歷史寄存器;所述歷史寄存器隨著智能體與環(huán)境交互的進(jìn)行,所述歷史寄存器持續(xù)接受新的歷史狀態(tài),并將超過容量限制的早期的歷史狀態(tài)丟棄;構(gòu)造歷史背景網(wǎng)絡(luò),其中,所述歷史背景網(wǎng)絡(luò)的輸入為當(dāng)前觀測狀態(tài),與歷史寄存器中的歷史狀態(tài),通過數(shù)據(jù)挖掘與融合,所述歷史背景網(wǎng)絡(luò)的輸出歷史背景嵌入狀態(tài);構(gòu)造隱式變分推理網(wǎng)絡(luò),構(gòu)造策略網(wǎng)絡(luò)和狀態(tài)價值網(wǎng)絡(luò)并通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,其中,所述策略網(wǎng)絡(luò)和所述狀態(tài)價值網(wǎng)絡(luò)的輸入為信念嵌入和當(dāng)前觀測狀態(tài),所述策略網(wǎng)絡(luò)和所述狀態(tài)價值網(wǎng)絡(luò)的輸出為策略分布和狀態(tài)價值。
本文源自:金融界
作者:情報員
相關(guān)推薦
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。