首頁 > AI資訊 > 行業動態 > 張俊林:OpenAIo1的價值意義及強化學習的ScalingLaw

張俊林:OpenAIo1的價值意義及強化學習的ScalingLaw

新火種    2024-12-05

蹭下熱度談談 OpenAI o1 的價值意義及 RL 的 Scaling law。

一、OpenAI o1 是大模型的巨大進步

我覺得 OpenAI o1 是自 GPT-4 發布以來,基座大模型最大的進展,邏輯推理能力提升的效果和方法比預想的要好,GPT-4o 和 o1 是發展大模型不同的方向,但是 o1 這個方向更根本,重要性也比 GPT-4o 這種方向要重要得多,原因下面會分析。

為什么說 o1 比 4o 方向重要? 這是兩種不同的大模型發展思路,說實話在看到 GPT-4o 發布的時候我是有些失望的,我當時以為 OpenAI 會優先做 o1 這種方向,但是沒想到先出了 GPT-4o。 GPT-4o 本質上是要探索不同模態相互融合的大一統模型應該怎么做的問題,對于提升大模型的智力水平估計幫助不大; 而 o1 本質上是在探索大模型在 AGI 路上能走多遠、天花板在哪里的問題,很明顯第二個問題更重要。

GPT-4o 的問題在于本身大模型的智力水平還不夠高,所以做不了復雜任務,導致很多應用場景無法實用化,而指望靠圖片、視頻這類新模態數據大幅提升大模型智力水平是不太可能的,盡管確實能拓展更豐富的多模態應用場景,但這類數據彌補的更多是大模型對外在多模態世界的感知能力,而不是認知能力。提升大模型認知能力主要還要靠 LLM 文本模型,而提升 LLM 模型認知能力的核心又在復雜邏輯推理能力。LLM 的邏輯推理能力越強,則能解鎖更多復雜應用,大模型應用的天花板就越高,所以不遺余力地提升大模型尤其是文本模型的邏輯能力應該是最重要的事情,沒有之一。

如果 o1 模型能力越做越強,則可以反哺 GPT-4o 這種多模態大一統模型,可以通過直接用 o1 基座模型替換 GPT-4o 的基座、或者利用 o1 模型生成邏輯推理方面的合成數據增強 GPT-4o、再或者用 o1 蒸餾 GPT-4o 模型….. 等等,能玩的花樣應該有很多,都可以直接提升 GPT-4o 的復雜任務解決能力,從而解鎖更復雜的多模態應用場景。OpenAI 未來計劃兩條線,一條是 o1,一條是 GPT-4o,它的內在邏輯大概應該是這樣的,就是說通過 o1 增強最重要的基座模型邏輯推理能力,而再把這種能力遷移到 GPT-4o 這種多模態通用模型上。

OpenAI o1 的做法本質上是 CoT 的自動化。 我們知道,通過 CoT 把一個復雜問題拆解成若干簡單步驟,這有利于大模型解決復雜邏輯問題,但之前主要靠人工寫 CoT 來達成。 從用戶提出的問題形成樹的根結點出發,最終走到給出正確答案,可以想像成類似 AlphaGo 下棋,形成了巨大的由 CoT 具體步驟構成的樹形搜索空間,這里 CoT 的具體步驟的組合空間是巨大的,人寫的 CoT 未必最優。 如果我們有大量邏輯數據,是由 構成,則通過類似 AlphaGo 的 Monte Carlo Tree Search(MCTS)搜索 + 強化學習,確實是可以訓練大模型快速找到通向正確答案的 CoT 路徑的。

而問題越復雜,則這個樹的搜索空間越大,搜索復雜度越高,找到正確答案涉及到的 CoT 步驟越多,則模型生成的 CoT 就越復雜,體現在 o1 的速度越慢,生成的 CoT Token 數越多。很明顯,問題越復雜,o1 自己生成的隱藏的 CoT 越長,大模型推理成本越高,但效果最重要,成本其實不是問題,最近一年大模型推理成本降低速度奇快,這個總有辦法快速降下去。

從上面 o1 的做法可以知道 Prompt 工程會逐漸消亡。 之前解決復雜問題,需要人寫非常復雜的 Prompt,而 o1 本質上是 CoT 等復雜 Prompt 的自動化,所以之后是不太需要用戶自己構造復雜 Prompt 的。 本來讓用戶寫復雜 Prompt 就是不人性化的,所有復雜人工環節的自動化,這肯定是大勢所趨。

Agent 屬于概念火但無法實用化的方向, 主要原因就在于基座模型的復雜推理能力不夠強。 如果通過基座模型 Plan 把一個復雜任務分解為 10 個步驟,哪怕單個步驟的正確率高達 95%,要想最后把任務做對,10 個環節的準確率連乘下來,最終的正確率只有 59%,慘不忍睹。 那有了 o1 是不是這個方向就前途坦蕩? 也是也不是,o1 的 Model Card 專門測試了 Agent 任務,對于簡單和中等難度的 Agent 任務有明顯提升,但是復雜的、環節多的任務準確率還是不太高。 就是說,不是說有了 o1 Agent 就現狀光明,但是很明顯 o1 這種通過 Self Play 增強邏輯推理能力的方向應該還有很大的發展潛力,從這個角度講說 Agent 未來前途光明問題應該不大。

OpenAI 很多時候起到一個行業指路明燈的作用 ,往往是第一個證明某個方向是行得通的(比如 ChatGPT、GPT-4、Sora、GPT-4o 包括這次的 o1),然后其他人開始瘋狂往這個方向卷,到后來甚至卷的速度太快把 OpenAI 都甩到后面吃尾氣。典型例子就是 Sora,如果 OpenAI 不是出于阻擊競爭對手秀一下肌肉,大家都沒有意識到原來這個方向是可以走這么遠的,但當意識到這一點后,只要你專一地卷一個方向,方向明確且資源聚焦,是可能趕超 OpenAI 的,目前國內外各種視頻生成模型有些甚至可能已經比 Sora 好了,Sora 至今仍然是期貨狀態,主要 OpenAI 想做的方向太多,資源分散導致分到具體一個方向的資源不夠用,所以越往后發展期貨狀態的方向越多,也讓人覺得盡顯疲態。

OpenAI o1 等于給大家又指出了一個前景光明的方向,估計后面大家又開始都往這個方向卷。我覺得卷這個方向比去卷 GPT-4o 和視頻生成要好,雖然具體怎么做的都不知道,但是大方向清楚且效果基本得到證明,過半年肯定頭部幾家都能摸清具體技術追上來,希望能再次讓 OpenAI 吃尾氣。而且這個方向看上去資源耗費應該不會特別大,偏向算法和數據一些,數據量規模估計不會特別巨大,卷起來貌似成本低一些。這是個卷的好方向。

二、預訓練 Scaling Law 的來源及 O1 提到的 RL Scaling law

粗分的話,大語言模型最基礎的能力有三種 :語言理解和表達能力、世界知識存儲和查詢能力以及邏輯推理能力(包括數學、Coding、推理等理科能力,這里 Coding 有一定的特殊性,是語言能力和邏輯摻雜在一起的混合能力,Coding 從語言角度可以看成一種受限的自然語言,但是混雜著復雜的內在邏輯問題。從語言角度看,Coding 貌似是容易解決的,從邏輯角度看又相對難解決。總之,Coding 目前看是除了語言理解外,大模型做得最好的方向)。

語言理解和表達是 LLM 最強的能力,初版 ChatGPT 就可以完全勝任各種純語言交流的任務,基本達到人類水準,目前即使是小模型,在這方面比大模型能力也不弱;世界知識能力雖說隨著模型規模越大效果越好,但幻覺問題目前無法根治,這是制約各種應用的硬傷之一;邏輯推理能力一直都是 LLM 的弱項,也是最難提升的方面,從 GPT-4 開始往后,如何有效并大幅提升 LLM 的邏輯推理能力是體現不同大模型差異和優勢的最核心問題。所以,大模型最重要的一個是世界知識方面如何有效消除幻覺,一個是如何大幅提升復雜邏輯推理能力。語言能力已不是問題。

從大模型的基礎能力,我們再說回已經被談濫了的大模型 Scaling law 。現在普遍認為通過增加數據和模型規模來提升大模型效果的 Scaling law 模式,其增長速度在放緩。其實我們對照下大模型的三個基礎能力的能力來源,基本就能看出來這是為啥(以下是我猜的,不保真):

本質上大模型的能力來源都來自訓練數據,包含能體現這方面能力的訓練數據越多,則這種能力越強。語言能力不用說了,任意一份預訓練數據,其中都包含相當比例的語言的詞法句法等成分,所以訓練數據中體現語言能力的數據是最多的,這也是為何大模型的語言能力最強的原因。

而數據中包含的世界知識含量,基本是和訓練數據量成正比的,明顯數據量越多,包含的世界知識越多,Scaling law 是數據中包含的世界知識含量關系的一個體現,但是這里有個問題,大模型見過越多數據,則新數據里面包含的新知識比例越小,因為很多知識在之前的數據里都見過了,所以隨著數據規模增大,遇到的新知識比例就越低,在世界知識方面就體現出 Scaling law 的減緩現象。

為啥邏輯推理能力最難提升?因為能體現這方面的自然數據(代碼、數學題、物理題、科學論文等)在訓練數據中比例太低,自然大模型就學不好,盡管通過不斷增加數據,能增加邏輯推理方面數據的絕對數量,但因為占比太少,這方面提升的效果和增加的總體數據規模就不成比例,效果也不會太明顯,就體現在邏輯推理能力 Scaling law 看上去的放緩。這是很自然的。這也是為何現在為了提高模型邏輯能力,往往在預訓練階段和 Post-training 階段,大幅增加邏輯推理數據占比的原因,且是有成效的。

所以,目前大模型的核心能力提升,聚焦到不斷通過合成數據等方式構造更多比例的邏輯推理數據上來。 但是大部分邏輯推理數據的形式是 < 問題,正確答案 >,缺了中間的詳細推理步驟,而 o1 本質上是讓大模型學會自動尋找從問題到正確答案的中間步驟,以此來增強復雜問題的解決能力。

OpenAI o1 提到了關于 RL 在訓練和推理時候的 Scaling law,并指出這與預訓練時候的 Scaling law 具有不同特性。很明顯,如果 o1 走的是 MCTS 搜索技術路線,那么把 CoT 拆分的越細(增加搜索樹的深度),或提出更多的可能選擇(節點的分支增多,就是說樹的寬度越寬),則搜索空間越大,找到好 CoT 路徑可能性越大,效果越好,而訓練和推理的時候需要算力肯定越大。看上去有著效果隨著算力增長而增長的態勢,也就是所謂的 RL 的 Scaling law。這其實是樹搜索本來應有之義,我倒覺得把這個稱為 RL 的 Scaling law 有點名不副實。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章