首頁(yè) > AI資訊 > 最新資訊 > GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi)網(wǎng)友:像大腦的工作方式

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi)網(wǎng)友:像大腦的工作方式

新火種    2023-10-28

GPT-4數(shù)學(xué)能力還能更強(qiáng)!

新研究發(fā)現(xiàn)GPT-4代碼解釋器做題準(zhǔn)確率與其使用代碼的頻率有關(guān)。

為此,研究人員提出新方法對(duì)癥下藥,直接將其數(shù)學(xué)能力拔至新SOTA:

在MATH數(shù)據(jù)集上,做題準(zhǔn)確率從53.9%增加到了84.3%。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

你沒(méi)聽(tīng)錯(cuò),就是前段時(shí)間被稱為ChatGPT推出后最強(qiáng)模式的那個(gè)代碼解析器(Code Interpreter)。

研究人員窺探了其代碼生成和執(zhí)行機(jī)制,使用自我驗(yàn)證、驗(yàn)證引導(dǎo)加權(quán)多數(shù)投票的方法,直接打開(kāi)其做數(shù)學(xué)題的任督二脈。

好奇網(wǎng)友隨即而來(lái):

還想看他們做高數(shù)。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

還有網(wǎng)友認(rèn)為:

這也就是大腦的工作方式,人類在解決數(shù)學(xué)問(wèn)題時(shí)也會(huì)自我驗(yàn)證。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

一起來(lái)康康這項(xiàng)研究的細(xì)節(jié)~

兩步提升數(shù)學(xué)能力

GPT-4代碼解析器的代碼生成和執(zhí)行機(jī)制究竟是怎樣的?

來(lái)自港中文MMLab、南京大學(xué)、中科大、清華、城大、長(zhǎng)沙理工等多個(gè)機(jī)構(gòu)的學(xué)者為解開(kāi)這一問(wèn)題,使用特定代碼約束提示進(jìn)行了一項(xiàng)試驗(yàn)。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

他們?cè)O(shè)計(jì)了3種不同的提示方法,限制GPT-4代碼解析器使用代碼的頻率:

Prompt 1:完全不允許使用代碼,輸出完全依賴自然語(yǔ)言推理,禁止將代碼合并到解決方案中。Prompt 2:只允許使用1次代碼,也就是在生成解決方案時(shí),只能在單個(gè)代碼塊內(nèi)使用代碼。Basic Prompt:沒(méi)有限制,GPT-4代碼解析器可以進(jìn)行一系列推理步驟,每個(gè)步驟都可由文字+Python代碼組成。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

△(a)不同提示回答準(zhǔn)確率比較(b)代碼使用頻率與五個(gè)難度級(jí)別準(zhǔn)確率都成比例,數(shù)學(xué)問(wèn)題相對(duì)復(fù)雜時(shí)更明顯

結(jié)果發(fā)現(xiàn),允許GPT-4代碼解析器多次生成和執(zhí)行代碼,其解題正確度明顯高于僅用自然語(yǔ)言推理或只用1次代碼的情況。

經(jīng)分析,研究人員認(rèn)為代碼的多次生成和執(zhí)行可以讓GPT-4代碼解析器逐步完善解決方案,當(dāng)代碼執(zhí)行產(chǎn)生錯(cuò)誤時(shí),GPT-4代碼解析器可以自我調(diào)試修改方案。

繼而引入“代碼使用頻率”概念,量化不同提示方法下代碼的使用次數(shù)。

基于前面的分析結(jié)果,研究人員希望能加強(qiáng)GPT-4代碼解析器生成準(zhǔn)確代碼、評(píng)估代碼執(zhí)行結(jié)果以及自動(dòng)調(diào)整解決方案的能力。

所以提出了CSV(自我驗(yàn)證)提示的方法,也就是為解決方案C引入了一個(gè)額外的驗(yàn)證階段,稱為V。

加入自我驗(yàn)證提示效果對(duì)應(yīng)上圖綠色Verification Prompt。

如此一來(lái),GPT-4代碼解析器需額外生成代碼來(lái)驗(yàn)證答案,如果結(jié)果是False則重新推理得到正確答案。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

CSV提示不僅對(duì)驗(yàn)證到邏輯推理每一步都進(jìn)行了擴(kuò)展,而且可以自動(dòng)更正錯(cuò)誤,無(wú)需外部模型或人工參與。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

△MATH數(shù)據(jù)集中第712個(gè)中級(jí)代數(shù)問(wèn)題。

CSV prompt:To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.

通過(guò)上圖這個(gè)例子可看出,在沒(méi)有自我驗(yàn)證的情況下,模型生成了一個(gè)錯(cuò)誤的答案。通過(guò)自我驗(yàn)證,模型糾正了錯(cuò)誤并生成了正確的答案。

此外,鑒于CSV可以有效地驗(yàn)證問(wèn)題的答案,研究人員又提出了驗(yàn)證引導(dǎo)加權(quán)多數(shù)投票(VW-voting)的方法,將自我驗(yàn)證結(jié)果集成到多數(shù)表決中,給予不同驗(yàn)證狀態(tài)不同權(quán)重,使表決更可靠。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

在實(shí)際操作中,一旦一個(gè)答案被確認(rèn)為錯(cuò)誤,那就不會(huì)進(jìn)行額外的驗(yàn)證,從而得到一個(gè)錯(cuò)誤的驗(yàn)證狀態(tài)。研究人員分配相應(yīng)的權(quán)重給這些狀態(tài):真實(shí)(wT)、不確定(wU)和錯(cuò)誤(wF)。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

最后從候選答案中擇取得分最高的那一個(gè):

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

比此前最高水平提高30%用上了上述方法,GPT-4代碼解析器做數(shù)學(xué)題的能力up up。

在MATH數(shù)據(jù)集上,原始GPT-4代碼解析器的準(zhǔn)確率為69.69%,使用CSV提示后提高到73.54%,再結(jié)合加權(quán)多數(shù)表決后進(jìn)一步提高到84.32%,相比之前SOTA提高了30%以上。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

△在MATH數(shù)據(jù)集上的準(zhǔn)確率(%)

在MATH數(shù)據(jù)集的各個(gè)子任務(wù)中,提出方法均取得顯著提高,尤其是在高難度級(jí)別的題目中效果更明顯。例如在中級(jí)代數(shù)(Intermediate Algebra)題目中,原來(lái)的GPT-4代碼解析器準(zhǔn)確率為50.1%,使用新方法后提高到74.4%。

除此之外,研究人員還在GSM8K、MMLU-Math、MMLU-STEM等數(shù)據(jù)集上進(jìn)行了驗(yàn)證。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

△在GSM8K數(shù)據(jù)集上的表現(xiàn)

上表可以看出,使用驗(yàn)證引導(dǎo)加權(quán)多數(shù)投票的方法還可以顯著減少需要采樣的解路徑數(shù)量(Sampled paths),在GSM8K數(shù)據(jù)集上只需要5個(gè)路徑就達(dá)到97%的準(zhǔn)確率。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

△在MMLU數(shù)據(jù)集上的表現(xiàn)

針對(duì)不同難度的題目(下圖a)以及不同類型題目(下圖b)的測(cè)試中,使用新方法后準(zhǔn)確率都有了提升。

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

△每條曲線上的四個(gè)點(diǎn)分別對(duì)應(yīng)于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的結(jié)果。

研究人員還發(fā)現(xiàn)GPT-4代碼解析器的代碼使用頻率提高與準(zhǔn)確率提高正相關(guān)。隨著題目難度的增加,代碼使用頻率穩(wěn)步上升。這說(shuō)明在較難的數(shù)學(xué)問(wèn)題上,更頻繁地使用代碼很重要。

此外,值得注意的是,盡管添加基于代碼的自我驗(yàn)證可以提高每個(gè)單獨(dú)題目類型的性能,但改進(jìn)的程度也因題目類型而異,從7.6%到僅0.6%不等。

研究人員指出:

特別是幾何問(wèn)題的準(zhǔn)確性僅提高了0.6%,原本GPT-4代碼解析器的準(zhǔn)確性也只有54.0%,在各個(gè)題目類型中屬于較低的。這種差異可能是因?yàn)榻鉀Q幾何問(wèn)題通常需要多模態(tài),超出了本文研究范圍。

論文傳送門(mén):https://arxiv.org/abs/2308.07921

GPT-4數(shù)學(xué)再提30分 代碼解析器任督二脈被打開(kāi) 網(wǎng)友:像大腦的工作方式

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章