OpenAI神秘Q*項目解密!誕生30+年Q學習算法引全球網友終極猜想





Q-learning是什么?
接下來,讓我們深入了解Q-learning以及它與RLHF的關系。


獎勵函數是這樣的:
- 沒有吃到奶酪:+0
- 吃到一塊奶酪:+1
- 吃到一大堆奶酪:+10
- 吃到毒藥:-10
- 超過5步:+0
- 可擴展性:
傳統的Q-learning難以應對大型狀態-動作空間,使其不適用于AGI需要處理的實際問題。- 泛化:
AGI需要能夠從學習的經驗中泛化到新的、未見過的場景。Q-learning通常需要針對每個特定場景進行明確的訓練。- 適應性:
AGI必須能夠動態適應變化的環境。Q-learning算法通常需要一個靜態環境,其中規則不隨時間變化。- 多技能整合:
AGI意味著各種認知技能,如推理、解決問題和學習的整合。Q-learning主要側重于學習方面,將其與其他認知功能整合是一個正在進行的研究領域。
- 深度Q網絡(DQN):
將Q-learning與深度神經網絡結合,DQN可以處理高維狀態空間,使其更適合復雜任務。- 遷移學習:
使Q-learning模型在一個領域受過訓練后能夠將其知識應用于不同但相關的領域的技術,可能是通向AGI所需泛化的一步。- 元學習:
在Q-learning框架中實現元學習可以使人工智能學會如何學習,動態地調整其學習策略,這對于AGI至關重要。Q-learning在人工智能領域,尤其是在強化學習中,代表了一種重要的方法論。毫不奇怪,OpenAI正在使用Q-learning RLHF來嘗試實現神秘的AGI。A*算法+Q-learning
一位斯坦福博士Silas Alberti表示,OpenAI的Q*可能與Q-learning有關,表示貝爾曼方程的最優解。又或者,Q*指的是A*算法和Q學習的結合。

「合成數據」是關鍵
Rebuy的AI總監、萊斯大學博士Cameron R. Wolfe認為:Q-Learning「可能」不是解鎖AGI的秘訣。但是,將合成數據生成(RLAIF、self-instruct等)和數據高效的強化學習算法相結合可能是推進當前人工智能研究范式的關鍵......他對此做一個簡短版的總結:使用強化學習進行微調是訓練ChatGPT/GPT-4等高性能LLM的秘訣。但是,RL本質上是數據低效的,而且使用人類手動注釋數據集來進行強化學習的微調成本極高。考慮到這一點,推進人工智能研究(至少在當前的范式中)將在很大程度上依賴于兩個基本目標:用更少的數據使RL性能更好。使用LLM和較小的手動標注數據集,為RL綜合生成盡可能多的高質量數據。我們在哪里碰壁?最近的研究表明,使用RLHF來微調LLM是非常有效的。然而,有一個主要問題——RL數據效率低下,需要我們收集大量數據才能獲得良好的性能。為了收集RLHF的數據,我們讓人類手動標注他們的偏好。雖然這種技術效果很好,但它非常昂貴,而且進入門檻非常高。因此,RLHF僅供擁有大量資源的組織(OpenAI、Meta)使用,而日常從業者很少利用這些技術(大多數開源LLM使用SFT而不是RLHF)。
解決方案是什么?盡管可能沒有完美的解決方案,但最近的研究已經開始利用強大的LLM(比如GPT-4)來自動化數據收集過程,以便使用RL進行微調。這首先是由Anthropic的Constitutional AI探索的,其中LLM合成了用于LLM對齊的有害數據。后來,谷歌提出了人工智能反饋的強化學習(RLAIF),其中LLM用于自動化RLHF的整個數據收集過程。令人驚訝的是,使用LLM生成合成數據以使用RL進行微調非常有效。來自LLM的合成數據。我們在各種研究論文中看到,使用LLM生成合成數據是一個巨大的研究前沿。這方面的例子包括:self-instruct:LLM可以使用LLM自動生成指令調優數據集(Alpaca、Orca和許多其他模型也遵循類似的方法)。LLaMA-2:LLM能夠在人工標注少量示例后為SFT生成自己的高質量數據。Constitutional AI:LLM可以使用自我批判來生成高質量的數據集,以便通過RLHF和SFT進行對齊。RLAIF:我們可以使用LLM完全自動化RLHF的反饋組件,而不是使用人工來收集反饋,并實現可比的性能。 GPT-Zero?對此,英偉達高級科學家Jim Fan表示:「很明顯,合成數據將提供下一萬億個高質量的訓練token。我敢打賭,大多嚴謹的LLM團隊都知道這一點。關鍵問題是如何保持質量并避免過早停滯不前。Richard Sutton寫的《苦澀的教訓》繼續指導著人工智能的發展:只有兩種范式可以通過計算無限擴展:學習和搜索。他在2019在撰寫本文時,這個觀點是正確的,而今天也是如此。我敢打賭,直到我們解決AGI的那一天。」
馬斯克對此深表贊同:「一個硬盤就能裝下人類有史以來所有書籍的文本,這實在有點可悲(嘆氣)。而合成數據卻要比這多出十萬倍。」
然而,在LeCun看來并非如此。他表示,「動物和人類只需少量的訓練數據,就能很快變得非常聰明。我認為新的架構可以像動物和人類一樣高效地學習。使用更多的數據(合成數據或非合成數據)只是暫時的權宜之計,因為我們目前的方法存在局限性」。
很多人聲稱Q-learning或RLAIF并不新鮮。這些技術可能并不新鮮,但將它們結合起來構建一個產生顯著結果的工作實現是新穎的!偉大的工程+科學=魔法!
確實,AlphaZero當年的視頻值得再重溫一遍。
GPT-Zero?
還有人猜測,Q*有可能是Ilya Sutskever創建的GPT-Zero項目的后續。(鏈接:OpenAI新模型曝重大飛躍:AGI雛形或威脅人類,也成Altman被解雇導火索!)


- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。