DeepMind大模型登Nature!AI首度攻破經典數學難題,贏過人類數學家
作者 | 云鵬
編輯 | 李水青
智東西12月15日消息,剛剛,谷歌DeepMind實現了數學大模型領域的重要突破,其發布的FunSearch針對諸多歷史上經典數學難題給出了新的解法,能力超越了人類數學家,相關研究已登Nature。
簡單來說,FunSearch就是一種基于大模型來解決數學問題的新方法,一套新AI技術。
FunSearch的研究意味著:歷史上第一次有人用大模型對科學或數學中具有挑戰性的開放性問題給出了新的發現或解法。
FunSearch在經典的“帽子集(Cap set)”難題中,找到了有史以來“最大的帽子集”,據稱這是過去20年里帽子集的上限規模增加最大的一次。
而在另一個經典“裝箱(Bin packing)”問題中,FunSearch的性能超越了傳統方式,并且相比神經網絡和強化學習的AI技術,消耗的資源更少,靈活性更強。
并且最重要的是,FunSearch給出的解法并不是一個“黑箱”,而是一個解決問題的程序,也就是說,FunSearch是真正的“授之以漁”,這對于科學家們來說是極為重要的突破。
這背后,研究人員通過新的方法防止大模型“幻覺”的出現是非常關鍵的,這也打破了許多人認為大模型很難找到“可驗證”的新發現的固有印象。
FunSearch的研究可以應用在數據中心領域,以及各類工業系統中,用來提升任務處理的效率,其實際應用價值是巨大的。
數學難題一直是大模型很難“征服”的領域之一,這次,谷歌成功將壓力給到了OpenAI。
一、歷史首次,大模型在數學開放問題中找到新解法,不僅給你答案,還給你解題思路
大家都知道大模型(LLM)很有用,它們幾乎無所不能,但在發現全新知識方面卻有些捉襟見肘,因為大模型的“幻覺”問題由來已久,用大模型去找到一些“可驗證”的正確新發現是很有挑戰的。
但這次谷歌DeepMind發表的這項研究,徹底顛覆了這一想法。
這個名為“FunSearch”的方法,是一種在數學和計算機科學中尋找新解決方案的方法。
從工作原理上來看,FunSearch將預先訓練的大模型(其訓練目標是以計算機代碼的形式提供創新解決方案)與自動“評估器(Evaluator)”配對,這個評估器就是用來防止幻覺和錯誤想法出現的。通過在這兩個組件之間反復迭代,初始解決方案就會“演變”為新知識。
這套系統在運行過程中,會搜索(Search)以計算機代碼編寫的“函數(Functions)”,因此得名FunSearch。
用大模型對科學或數學中具有挑戰性的開放性問題給出新解法,并且結果更優秀,DeepMind發文稱這尚屬首次。
比如FunSearch發現了經典“帽子集”問題的新解決方案,這是數學領域中一個長期未解的問題。此外,為了展示FunSearch的實用性,研究員還用它發現了“裝箱”問題的更有效的算法。
這些新方案和新算法在加速數據中心處理效率方面有著廣泛應用。
值得一提的是,FunSearch最牛的地方在于,它不僅可以給出解法,還可以讓研究人員看到“解題過程”,提供新的靈感,可以說是“授之以漁”了。
FunSearch輸出的程序可以揭示其解決方案是如何構建的,而不是僅僅給出一個最終解決方案,這也讓FunSearch成為了一個極為強大的科學工具。這一科學工具可以激發科學家們對相關問題進行進一步深入研究。
二、解決兩個歷史經典數學難題,能力遠超科學家,比神經網絡和強化學習更高效
我們具體來看看FunSearch到底解決了哪些經典數學問題。
1、帽子集問題
首先,FunSearch解決的是帽子集問題,這一開放式數學問題幾十年來一直困擾著多個研究領域的數學家。研究團隊與相關領域的數學教授進行了合作。
簡單來看,解決帽子集問題,需要在一個高維網格中尋找最大的點集(被稱為帽集,a cap set) ,而在這個網格中,一條直線不可以同時經過三個點。
當然,要解決這一問題,依靠“暴力計算”是不可能的,因為可能性的數量會很快超過宇宙中原子的數量。
FunSearch以程序的形式生成了一些解決方案,在一些設置之下,發現了有史以來“最大的帽子集(the largest cap sets ever found)”,這是過去20年里帽子集的上限規模增加最大的一次。
此外,FunSearch的表現超過了最先進的計算求解器,因為這個問題的規模已經遠遠超出了這些計算求解器當前的能力。
這些結果表明,FunSearch技術在處理困難的組合問題時,可以找到超越已有答案的解法,而這些問題往往難以建立“直覺(Intuition)”。
研究人員希望FunSearch可以在解決組合學中類似的理論問題時發揮作用,未來它可能會在通信理論等領域開辟新的研究可能性。
2、裝箱問題
除了帽子集問題,研究人員還利用FunSearch嘗試解決了另一個“臭名昭著”的挑戰——“裝箱”問題,借此來探索FunSearch的靈活性。
簡單來說,“裝箱”問題就是如何將不同大小的物品打包到最少數量的箱子中,這其實是很多實際問題的核心,從集裝箱裝卸到數據中心分配計算任務,如何最小化成本。
雖然裝箱跟帽子集問題有很大不同,但研究人員使用FunSearch來解決這個問題依然很容易。
FunSearch直接給出了一個可以自動定制的程序(可以根據數據的具體情況進行調整),其性能超過了傳統的啟發式方法(Best-fit heuristic),可以用更少的箱子打包相同數量的物品。
當然,裝箱問題可以用其他AI技術來解決,比如神經網絡和強化學習,這些方法也被證明是有效的,但可能需要更大量的資源來部署。
另一方面,FunSearch輸出的代碼可以被很容易地檢查和部署,這意味著它給出的解決方案可能被直接應用到各種實際的工業系統中,帶來立竿見影的效率提升。
三、FunSearch拆解:不斷選出最高分答案并持續迭代,基于谷歌PaLM 2,還有三個關鍵方法改進
下面我們具體來看FunSearch的運作方式,其實這是一種“由大模型驅動的演化方法”,FunSearch會對大模型給出的解法評分,并持續迭代評分最高的解法。這些解法以計算機程序的形式表達出來,因此可以自動運行和評估。
首先,用戶以代碼的形式編寫問題的描述。這個描述包括一個評估程序的過程,以及一個用于初始化程序池的種子程序(a seed program)。
FunSearch是一個迭代的過程,在每次迭代中,系統從當前的程序池中選擇一些程序,這些程序被提供給大模型,而大模型會創造性地基于這些程序生成新的程序,新生成的程序會被自動評估。
評分最高的程序會被添加回現有程序的池中,由此形成一個自我改進的循環。
研究特別提到,FunSearch雖然此次使用的是谷歌的PaLM 2,但FunSearch與其他在代碼上訓練的大模型都是兼容的。
實際上,在不同領域發現新的數學知識和算法是一項非常困難任務,這已經大大超出了最先進的AI系統的能力。為了用FunSearch來解決這些具有挑戰性的問題,研究團隊引入了多個關鍵組件。
首先,研究團隊并非讓FunSearch從頭開始尋找答案,而是讓它基于這些問題的常見解法開始進行解法的迭代演化。
此外,在演化過程中,研究人員使用了一種策略來提高大模型給出解法的多樣性,以避免“原地打轉”。最后,研究人員還通過并行運行演化過程提高了系統的效率。
四、FunSearch給出的答案簡潔易懂,擅長“以小見大”,可以與研究人員協同解決問題
提到FunSearch的優勢,研究人員稱,FunSearch不是一個只生成問題解決方案的黑箱。相反,它生成的是描述如何得到這些解決方案的程序。
這種“展示工作過程”的方法是科學家們通常的操作方式,新的發現,往往需要發現產生的過程來進行解釋。
FunSearch更傾向于找到由高度緊湊的程序表示的解決方案,這些方案具有低“Kolmogorov復雜性”。簡單來說,FunSearch可以用很簡短的程序描述非常大的目標對象,在研究人員看來,這讓FunSearch有了“大海撈針”一般的能力。此外,這也讓研究人員更容易理解FunSearch給出的程序輸出。
值得一提的是,FunSearch和研究人員還可以相互協作解決問題,FunSearch給出的程序有很好的可解釋性,這為研究人員提供了有價值的參考,研究人員借此獲得了對問題的新洞察,改進引入到FunSearch中的問題,從而讓FunSearch找到更好的解法,形成這種良性循環。
與DeepMind團隊合作的大學教授感嘆稱,它自己在研究FunSearch生成的解決方案時也“學到了一些東西”。
結語:解決“幻覺”問題,大模型將在更多領域發揮重要作用
這次谷歌DeepMind的研究表明,如果研究人員可以一定程度上抑制大模型的“幻覺”問題,大模型將會在諸如數學等領域涌現出新的應用潛力,大模型解決重要實際問題的能力也將有顯著提升。
未來,對于科學和工業中的許多問題,使用大模型驅動的方法去生成有效的、定制的算法和程序,或許會成為更常見的做法。
谷歌DeepMind的研究只是一個開始,未來以FunSearch為代表的基于大模型的研究方法將繼續迭代,大模型也將在更多領域釋放自己的潛力。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。