全網大討論:引爆OpenAI全員亂斗的Q*到底是什么?
強大到能威脅人類,所以不得不把自家 CEO 開了?
本周三,OpenAI 的「宮斗」隨著山姆?奧特曼回歸 CEO 大位而告于段落,不過此次事件的余波還在震撼著關心 AI 的每一個人。我們都想知道,是什么讓 OpenAI 前董事會不計任何代價也要開除奧特曼的。
最近幾天,互聯網上有關 Q* 的討論前所未有的熱鬧。
據 The Information 本周四報道,由 OpenAI 首席科學家 Ilya Sutskever 領導的團隊在今年早些時候取得了技術突破,使得他們能夠構建一個名為 Q*(音同 Q star)的新模型。Q* 最關鍵的突破是它能夠解決基本的數學問題。
又據路透社報道,Q * 模型引發了 OpenAI 內部的一場風暴,幾名工作人員寫信給 OpenAI 董事會,警告稱這一新突破可能會威脅人類。這一警告被認為是董事會選擇解雇山姆?奧特曼(Sam Altman)的原因之一。
讓 AI 解決基本數學問題的能力聽起來似乎沒有很厲害,但實際上這代表著大模型能力的巨大飛躍。很多近期研究表明,現有模型很難在訓練數據之外進行泛化。
越來越多的工程師和研究人員加入了對 Q * 的猜測和討論之中。
據 Business Insider 報道,人工智能初創公司 Tromero 的聯合創始人 Charles Higgins 表示:「對抽象概念進行邏輯推理正是目前大模型真正面臨的難題。數學涉及大量符號推理,例如『如果 X 大于 Y,Y 大于 Z,那么 X 大于 Z?!弧苟F有語言模型不進行邏輯推理,只是擁有有效的直覺。
那么,Q * 模型為什么可以進行邏輯推理?它的名字暗示了這個問題的答案。
Q * 暗示其結合了兩種著名的人工智能方法 ——Q-learning 和 A* 搜索。
Q-learning 是人工智能領域的一個基本概念,它是一種無模型強化學習算法,旨在學習特定狀態下動作(action)的價值(value)。Q-learning 的最終目標是找到一個最優策略,定義在每個狀態下采取的最佳動作,從而隨著時間的推移最大化累積獎勵(reward)。
ChatGPT 開發者之一的 John Schulman 2016 年在一次演講中提到過這個概念,引入 Q* 到優化策略中:
所以在每個狀態下,哪種行動能有最優獎勵?
Bandit 問題可以利用貝爾曼方程來解決。
Q-learning 基于 Q 函數,即狀態動作價值函數。在簡單的場景中,Q-learning 會維護并更新一個 Q-table,更新規則通常表示為:
Q-learning 的關鍵是平衡探索(嘗試新事物)和利用(使用已知信息)。簡單來說,Q* 可以實現最優策略,這在強化學習等 AI 方法中是算法重要的步驟,有關算法能否采取最佳決策,找到「正確解」。通常,被稱為「Q Learning」的行為不會指代對上下文的搜索,或者至少不會作為算法的高級名稱。它通常用于指代貪婪行為的代理。
另外也有人認為,或許如果 Q 指代 Q Learning,那么 * 就是來自 A* 搜索。
A*(A-Star)算法是一種靜態路網中求最短路徑最有效的直接搜索方法,也是解決許多搜索問題的有效算法。算法中的距離估算值與實際值越接近,最終搜索速度越快。
這樣的思路也很有趣。
最后,如果你想了解更多 Q-learning 的內容,可以參看強化學習之父 Richard S. Sutton 那本著名的《Reinforcement Learning: An Introduction》。
值得注意的是,OpenAI 為大模型訓練使用的 RLHF 方法,旨在讓模型從人類反饋中學習,而不是僅僅依賴于預定義的數據集。
人類反饋可以有多種形式,包括更正、不同輸出的排名、直接的指令等等。AI 模型會利用這些反饋來調整其算法并改進響應。這種方法在定義明確規則或提供詳盡示例的挑戰性領域特別有用。有人猜測,這就是為什么 Q* 接受邏輯訓練并最終能夠適應簡單算術的原因。
然而,Q-learning 算法對實現通用人工智能(AGI)能起到多大的作用?
首先,AGI 是指人工智能系統理解、學習并將其智能應用于各種問題的能力,類似于人類智能。Q-learning 雖然在特定領域很強大,但實現 AGI 必須要克服一些挑戰,包括可擴展性、泛化、適應性、技能組合等等。
實際上,近年來涌現了很多嘗試將 Q-learning 與其他深度學習方法結合的研究,例如將 Q-learning 與元學習結合,讓 AI 學會動態調整其學習策略。
這些研究的確讓 AI 模型有了能力上的改進提升,但是 Q-learning 是否能幫助 OpenAI 實現 AGI 還未可知。
PerplexityAI 的 CEO Aravind Srinivas 認為,Sutton 的文章《慘痛的教訓》告訴我們,計算才是前進的方向。我們需要更多數據(不僅是參數)來有效地使用計算。如果我們最大限度地利用互聯網上的數據,那就需要模型本身來生成下一個 token,即遞歸的自我完善:
那么這應該根本就不危險,正如以前計算機視覺研究中,對于圖像數據進行翻轉和裁剪以訓練分類器一樣。
也有人猜測,Q* 是 AlphaStar 式搜索 + LLM 的傳說中的突破,它是很多 AI Lab 正在努力的方向。但考慮到 GPT-4 自驗證 + 搜索此前一些嘗試有限的提升,我們距離 AGI 還是很遠的。
如果正如各路媒體所報道的,Q * 的突破意味著下一代大模型可以將支持 ChatGPT 的深度學習技術與人類編程的規則結合起來。這種方法可以幫助解決困擾當前大模型的幻覺問題。
這可能會是個重要的技術發展里程碑。在實際層面上,應該距離 AI 終結世界還很遠。
「我認為人們之所以相信 Q* 將通向通用人工智能,是因為從我們迄今為止所聽到的情況來看,它似乎會將大腦的兩側結合起來,并且能夠從經驗中了解一些事情,同時仍然能夠推理事實,」Tromero 聯合創始人 Sophia Kalanovska 表示?!高@絕對是離我們所認為的智能更近了一步,并且有更可能讓模型能夠產生新的想法,ChatGPT 則不然。」
無法推理和創造新想法,僅僅是從訓練數據中總結信息 —— 這被視為現有大模型的局限性,甚至對于參與這些方向研究的人來說,他們也在被框架所局限。
薩里學院人類中心 AI 研究所負責人 Andrew Rogoyski 認為,解決前所未見的問題是構建 AGI 的關鍵一步:「就數學而言,我們知道現有的人工智能已被證明能夠進行本科水平的數學運算,但無法處理更高級的數學問題。」
「然而,如果人工智能能夠解決新的、看不見的問題,而不僅僅是反省或重塑現有知識,那么這將是一件大事,即使所涉及到的問題相對簡單,」他補充道。
并非所有人都對 Q * 可能帶來的突破如此興奮。著名 AI 學者,紐約大學教授 Gary Marcus 在他的個人博客上發表了一篇文章,對 Q* 所報道的功能表示懷疑。
「OpenAI 的董事會可能確實會對新技術表示擔憂…… 盡管有一些說法稱 OpenAI 已經在嘗試測試 Q*,但他們在幾個月內徹底改變世界是不現實的,」Marcus 表示?!溉绻颐恳粋€這樣的推斷(Q * 可能威脅人類)都能得到五分錢,我就會成為馬斯克級別的首富?!?/p>
圖靈獎得主 Yann LeCun 在與 Geoffrey Hinton 討論 AI 風險問題之余也點評了 Q*:
LeCun 認為:「Q * 很可能只是 OpenAI 用規劃取代自回歸 token 預測的一種嘗試?,F在關于 Q* 的推測只不過是廢話?!?/p>
馬斯克也參與了討論,順便還宣傳了下自家模型。他表示,你們討論的能力 Grok 都會有:
對于 Q*,OpenAI 仍然沒有對外界的詢問給予回應。
人們的討論還在繼續,或許在 OpenAI 下一個大模型發布之后,我們才能真正得到答案。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。