首頁 > AI資訊 > 最新資訊 > 經濟學家:強化學習的背后,是人類的愿景

經濟學家:強化學習的背后,是人類的愿景

新火種    2023-09-14

之前我們提到過,目前最流行的三種訓練AI的方法是監督學習、無監督學習和強化學習。強化學習是其中一種方法,它的原理是通過給AI反饋來訓練AI。就像教練訓練運動員一樣,如果AI做出錯誤的決定,就會受到懲罰,反之則會得到獎勵。強化學習更像是一種師徒制的訓練方式,AI會通過觀察人類的行為來學習。

AlphaGo使用的就是強化學習的原理,這種機制更加可靠。教練訓練運動員、老師傅帶徒弟、職場培訓新員工都是用類似的方法。然而,這種方法也存在潛在的問題,即AI可能過于注重“動作”而忽略了背后的“愿景”。

在書中,作者分享了一個有趣的案例。他的朋友是一位經濟學家,最近他在訓練小兒子上廁所,希望女兒也能參與進來。為了增加積極性,他制定了一個規則:每次姐姐陪弟弟上廁所,爸爸就給姐姐一塊糖。幾天后,這個幾歲的小姑娘進行了人生中可能是第一次推理,找到了規則的漏洞。她發現弟弟喝水越多,上廁所就越多。于是她開始每天給弟弟灌水。

這個例子說明了強化學習可能會帶來的問題。

我們平時也會看到類似的情況,員工每天兢兢業業完成任務,但這些動作是否真的能給公司帶來收益,是否真的對業務發展有好處,員工可能并不關心。然而,不能說員工沒有責任心,有時候是老板讓員工做這個做那個,但這些動作和公司發展之間的關系并不明確。

人類和AI之間也存在類似的問題。如果是訓練AI下圍棋,這種規則明確的情況還比較好處理,但面對更復雜的場景時,我們其實都是腦子不太清楚的老板。動作和愿景之間的關系我們也無法確定,如何解決這個問題呢?目前,計算機科學家們已經找到了幾種解決方案。一種方案是模仿。

由于場景復雜,我們無法拆解出一個個步驟,制定出那么詳細的獎懲規則。因此,讓人類示范AI模仿。在這個過程中,AI會逐漸吸收人類的價值觀,自動駕駛就是一個典型的例子。想要用一套規則讓AI明白如何開車,確實有點困難。為了保持安全,AI可能無法理解如何快速行駛。因此,最好的方法是讓有經驗的司機示范,讓AI學習。

逆強化學習是另一種計算機科學家提出的解決方案。

強化學習可以被看作是一場游戲,其中AI采取各種行動,例如前進、后退、跳躍等,每當它做出一個動作,環境就會給它一個分數作為獎勵。AI的目標是找到一種策略,使其能夠獲得最多的獎勵,因此它可能會利用規則的漏洞,以一種我們意想不到的方式“刷分”。因此,強化學習中的規則是不變的,AI需要思考如何行動。

逆強化學習就像是AI觀察別人打游戲,它觀察到玩家的行動和得分的變化,讓AI猜測游戲的規則。換句話說,在逆強化學習中,AI需要思考的是規則。通過這種方法,我們可以了解AI如何理解制定的規則,以及這些規則是否與我們的期望相符,如果不相符,我們應該如何改進?這為我們提供了一個不同的視角,因為我們的目標是“對齊”。如果我們只從人類的角度來看待問題,可能會有所欠缺,因此我們還需要從AI的角度來看待它的理解。因此,“逆強化學習”是人工智能領域的一個新發展方向。

另一種思路是目前只是一種猜測,即我們可以將這種思路應用于AI的學習中。傳統的訓練AI的方法是訓練單個AI。然而,如果我們想讓一個團隊更加高效,最好的培訓方法不是加強每個人在各自崗位的能力,而是讓大家輪換崗位進行培訓,看看其他同事在做什么,面對什么樣的挑戰,承受什么樣的壓力。

有些計算機科學家提出,我們是否可以將這種思路應用于AI的學習中?通過訓練多個AI的相互作用,我們可以鼓勵它們合作,這只是一種猜測。然而,如果技術上可行,這可能是一個很好的方向??茖W家發現,18個月大的嬰兒已經能夠看出有人需要幫助。科學家故意在嬰兒面前摔倒,嬰兒雖然自己走路還不穩,但還是搖搖晃晃地過來想要扶一下他。這是一種非常復雜的能力,也是人類獨有的。

我們人類在數百萬年的進化中學會了合作的重要性,AI也可能在這個過程中變得更加“人性化”。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章