五月婷婷开心综合,黑人大荫蒂高潮视频,国产午夜无码片在线观看影院

首頁 > AI資訊 > 最新資訊 > o1方法性能無上限！姚班馬騰宇等數學證明：推理token夠多，就能解決任意問題

o1方法性能無上限！姚班馬騰宇等數學證明：推理token夠多，就能解決任意問題

新火種 2024-09-18

OpenAI用o1開啟推理算力Scaling Law，能走多遠？

數學證明來了：沒有上限。

斯隆獎得主馬騰宇以及Google Brain推理團隊創建者Denny Zhou聯手證明，只要思維鏈足夠長，Transformer就可以解決任何問題！

通過數學方法，他們證明了Transformer有能力模擬任意多項式大小的數字電路，論文已入選ICLR 2024。

用網友的話來說，CoT的集成縮小了Transformer與圖靈機之間的差距，為Transformer實現圖靈完備提供了可能。

這意味著，神經網絡理論上可以高效解決復雜問題。

再說得直白些的話：Compute is all you need！

CoT讓Transformer運行更高效

首先需要說明的是，“可以解決任何問題”是一個通俗化的表述，嚴格來說，論文的核心結論是思維鏈（CoT）能夠顯著提升Transformer的表達能力。

作者首先通過理論分析，提出對于固定深度、多項式寬度、常數精度的Transformer模型，如果不使用CoT，其表達能力將受限于AC0問題類別。（AC0是一類可以在并行計算中高效解決的問題，但不包括需要復雜序列化計算的問題。）

在固定指數位的情況下，固定深度、對數精度的Transformer模型即使引入了正確的舍入操作，其表達能力也僅限于TC0問題類別。

但當引入CoT時，固定深度、常數精度的Transformer模型就能夠解決任何由大小為T的布爾電路解決的問題。

這表明CoT顯著擴展了模型的表達能力，使其能夠處理更復雜的問題。

為了驗證理論分析，論文在四個核心問題上進行了實驗，考慮了基礎（base）、CoT和提示（hint）三種不同的訓練設置：

模運算（Modular Addition）：并行計算問題，論文展示了CoT如何提高模型在這個問題上的準確性；置換群組合（Permutation Composition）：需要序列化計算的問題，論文證明了CoT在解決這類問題上的有效性；迭代平方（Iterated Squaring）：典型的序列化計算問題，論文展示了CoT如何使模型能夠有效地解決這類問題；電路值問題（Circuit Value Problem）：這是一個P完全問題，論文證明了即使是在模型深度較低的情況下，CoT也能使模型能夠解決這類問題。

首先在可并行的模運算問題上，輸入是若干個模7的數，輸出是它們的模7和。

實驗結果表明，所有設置下的Transformer都能夠學習模加；但在較長序列（如n=16）上，CoT的優勢更加明顯。

這說明即使是可并行問題，CoT也能帶來一定的效率提升。

在內在串行的置換群復合任務上，輸入是S_5置換群中的若干個置換，輸出是它們的復合結果。

結果，CoT提高了低深度模型的準確性——

不使用CoT的Transformer即使深度較大也難以學習該任務（準確率約20%），而使用CoT后即使是1層Transformer也能輕松學習（準確率100%）。

對于迭代平方任務，輸入是一個質數p、一個整數r和若干個“^2”符號，輸出是r^(2^k) mod p。

實驗結果與置換群復合任務相似：不使用CoT時。即使16層Transformer也難以學習；而使用CoT后。1層Transformer就能完美求解。

這再次驗證了理論分析，即迭代平方是內在串行的，需要CoT來提供必要的計算能力。

最后的電路值問題，輸入是一個隨機布爾電路的描述，輸出是電路的最終輸出值。

實驗結果表明，在基準設置下，4層Transformer的準確率約為50%，8層約為90%，16層接近100%；

而使用CoT后，1層Transformer就能達到接近100%的準確率。

這驗證了理論結果，即CoT賦予了Transformer任意電路的模擬能力，使其能夠解決電路值問題這一P完全問題。

CoT+Transformer模擬門電路

除了上述實驗，作者還對以下結論進行了理論證明：

證明的思路是先將布爾電路視為一系列邏輯門的組合，然后利用Transformer中的位置編碼為每個邏輯門及其狀態分配一個獨特的表示，進而通過逐步計算來模擬整個電路的執行過程。

這個證明的關鍵，在于利用CoT來逐步模擬電路中每個門的計算。

具體而言，對于一個有T(n)個門的電路，作者設計了一個4T(n)個token的輸入序列。

這個序列包含了電路的完整描述，每個門用4個連續的token表示：門類型、兩個輸入門的索引和當前門的索引，并用輸入序列中的第一個token指示了電路的輸入值。

然后，作者構造了一個常數深度的Transformer，這個Transformer的嵌入維度只需要O(log n)，就足以對T(n)個門進行編碼。

在第一層，Transformer讀取輸入序列，并將電路的描述信息存儲到其位置嵌入中。

接下來是關鍵的CoT步驟。Transformer逐步生成4T(n)個token的思維鏈，每4個token對應電路中的一個門。

對于第i個門,Transformer執行以下操作：

利用注意力機制獲取兩個輸入門的計算結果：如果輸入門是電路的輸入，可以直接從輸入序列中讀取；如果輸入門是前面計算過的中間結果，則可以從思維鏈的對應位置讀取。根據門的類型（與、或、非等），用前饋網絡計算當前門的輸出。將當前門的輸出寫回到思維鏈中，作為后續門的輸入。

通過這一過程，Transformer逐步模擬了電路中每一個門的計算，并將中間結果存儲在思維鏈中。在生成完整個思維鏈后，最后一個門的輸出就對應了電路的最終輸出。

也就是說，通過將電路“展開”為一個長度為O(T(n))的思維鏈，即使固有深度很淺，Transformer也可以逐步執行電路中的計算。

在此基礎上，作者進一步證明，具有O(T(n))長度CoT的常數深度Transformer，可以模擬任意T(n)大小的電路，因此其計算能力等價于多項式大小電路。

理論打通了，實際可行嗎？

能夠模擬電路的計算過程，意味著CoT+Transformer能夠解決可計算問題。

同時，這也說明只要有足夠的CoT思考時間，大模型不需要擴展尺寸也能解決復雜問題。

有專業人士用一篇長文解釋了CoT和圖靈完備性之間的關系：

還有人把這項成果和OpenAI的“草莓”，也就是爆火的超強模型o1聯系到了一起——

草莓同樣也是思考的時間越長，準確性越高，按照這個思路，只要有好的模型，就能解決人類面臨的一系列難題。

甚至有人表示，如果這項研究是真的，那么AGI就已經在到來的路上了……

不過也有人認為，這只是一個理論性的結果，距離實際應用還存在很大差距。

即使拋開理論與實際條件的不同，時間和成本問題就是一個重要的限制因素。

而且實驗的一個假設是模型權重被正確設置，但實際模型的訓練很難達到這一程度。

還有人指出，這種模擬門電路運算，并不是大模型實際學習和工作的方式。

換言之，如何將實際問題用布爾電路表示，是Transformer從能解決運算問題到能夠解決實際問題的一個關鍵。

但現實中，諸如“如何治療癌癥”這樣的問題，很難以電路的形式去描述。

雖然距離實際應用還有一系列問題要解決，但這項研究至少揭開了CoT的巨大潛力。

作者簡介

本論文一共有四名作者，全部都是華人。

按署名順序，第一位作者為清華姚班校友李志遠，是馬騰宇已畢業的博士生，現為芝加哥豐田技術學院（TTIC）的終身教授助理教授。

第二位作者是Hong Liu，也是馬騰宇的博士生，現在在讀，本科就讀于清華，曾獲得特等獎學金及優秀畢業生榮譽。

第三位是Google Brain推理團隊創建者Denny Zhou，中科院博士，2017年加入Google前在微軟擔任了11年的高級研究員。

最后是2021年斯隆獎得主、斯坦福大學助理教授馬騰宇，他是姚班校友、陳丹琦的同班同學。

論文地址：https://arxiv.org/abs/2402.12875參考鏈接：[1]https://x.com/denny_zhou/status/1835761801453306089[2]https://www.reddit.com/r/singularity/comments/1fiemv4/denny_zhou_founded_lead_reasoning_team_at_google/

Tags:

上限性能

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

o1方法性能無上限！姚班馬騰宇等數學證明：推理token夠多，就能解決任意問題

通義千問重磅開源Qwen2.5，性能超越Llama

o1方法性能無上限！姚班馬騰宇等數學證明：推理token夠多，就能解決任意問題

財聯社9月14日電，OpenAI接近以可轉債的形式融資65億美元。如果不考慮利潤上限限制的話，OpenAI的估值將達到1500億美元。

圖形性能高40%！蘋果：Mac才是最好的AIPC

OpenAI宣布啟動GPTNext計劃：AI性能有望提高100倍

熱門文章