欧美视频精品免费覌看,天天添天天爽,国产欧美视频在线

首頁(yè) > AI資訊 > 最新資訊 > GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi)網(wǎng)友：像大腦的工作方式

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi)網(wǎng)友：像大腦的工作方式

新火種 2023-10-28

GPT-4數(shù)學(xué)能力還能更強(qiáng)！

新研究發(fā)現(xiàn)GPT-4代碼解釋器做題準(zhǔn)確率與其使用代碼的頻率有關(guān)。

為此，研究人員提出新方法對(duì)癥下藥，直接將其數(shù)學(xué)能力拔至新SOTA：

在MATH數(shù)據(jù)集上，做題準(zhǔn)確率從53.9%增加到了84.3%。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

你沒(méi)聽(tīng)錯(cuò)，就是前段時(shí)間被稱為ChatGPT推出后最強(qiáng)模式的那個(gè)代碼解析器（Code Interpreter）。

研究人員窺探了其代碼生成和執(zhí)行機(jī)制，使用自我驗(yàn)證、驗(yàn)證引導(dǎo)加權(quán)多數(shù)投票的方法，直接打開(kāi)其做數(shù)學(xué)題的任督二脈。

好奇網(wǎng)友隨即而來(lái)：

還想看他們做高數(shù)。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

還有網(wǎng)友認(rèn)為：

這也就是大腦的工作方式，人類在解決數(shù)學(xué)問(wèn)題時(shí)也會(huì)自我驗(yàn)證。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

一起來(lái)康康這項(xiàng)研究的細(xì)節(jié)～

兩步提升數(shù)學(xué)能力

GPT-4代碼解析器的代碼生成和執(zhí)行機(jī)制究竟是怎樣的？

來(lái)自港中文MMLab、南京大學(xué)、中科大、清華、城大、長(zhǎng)沙理工等多個(gè)機(jī)構(gòu)的學(xué)者為解開(kāi)這一問(wèn)題，使用特定代碼約束提示進(jìn)行了一項(xiàng)試驗(yàn)。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

他們?cè)O(shè)計(jì)了3種不同的提示方法，限制GPT-4代碼解析器使用代碼的頻率：

Prompt 1：完全不允許使用代碼，輸出完全依賴自然語(yǔ)言推理，禁止將代碼合并到解決方案中。Prompt 2：只允許使用1次代碼，也就是在生成解決方案時(shí)，只能在單個(gè)代碼塊內(nèi)使用代碼。Basic Prompt：沒(méi)有限制，GPT-4代碼解析器可以進(jìn)行一系列推理步驟，每個(gè)步驟都可由文字+Python代碼組成。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

△（a）不同提示回答準(zhǔn)確率比較（b）代碼使用頻率與五個(gè)難度級(jí)別準(zhǔn)確率都成比例，數(shù)學(xué)問(wèn)題相對(duì)復(fù)雜時(shí)更明顯

結(jié)果發(fā)現(xiàn)，允許GPT-4代碼解析器多次生成和執(zhí)行代碼，其解題正確度明顯高于僅用自然語(yǔ)言推理或只用1次代碼的情況。

經(jīng)分析，研究人員認(rèn)為代碼的多次生成和執(zhí)行可以讓GPT-4代碼解析器逐步完善解決方案，當(dāng)代碼執(zhí)行產(chǎn)生錯(cuò)誤時(shí)，GPT-4代碼解析器可以自我調(diào)試修改方案。

繼而引入“代碼使用頻率”概念，量化不同提示方法下代碼的使用次數(shù)。

基于前面的分析結(jié)果，研究人員希望能加強(qiáng)GPT-4代碼解析器生成準(zhǔn)確代碼、評(píng)估代碼執(zhí)行結(jié)果以及自動(dòng)調(diào)整解決方案的能力。

所以提出了CSV（自我驗(yàn)證）提示的方法，也就是為解決方案C引入了一個(gè)額外的驗(yàn)證階段，稱為V。

加入自我驗(yàn)證提示效果對(duì)應(yīng)上圖綠色Verification Prompt。

如此一來(lái)，GPT-4代碼解析器需額外生成代碼來(lái)驗(yàn)證答案，如果結(jié)果是False則重新推理得到正確答案。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

CSV提示不僅對(duì)驗(yàn)證到邏輯推理每一步都進(jìn)行了擴(kuò)展，而且可以自動(dòng)更正錯(cuò)誤，無(wú)需外部模型或人工參與。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

△MATH數(shù)據(jù)集中第712個(gè)中級(jí)代數(shù)問(wèn)題。

CSV prompt：To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.

通過(guò)上圖這個(gè)例子可看出，在沒(méi)有自我驗(yàn)證的情況下，模型生成了一個(gè)錯(cuò)誤的答案。通過(guò)自我驗(yàn)證，模型糾正了錯(cuò)誤并生成了正確的答案。

此外，鑒于CSV可以有效地驗(yàn)證問(wèn)題的答案，研究人員又提出了驗(yàn)證引導(dǎo)加權(quán)多數(shù)投票（VW-voting）的方法，將自我驗(yàn)證結(jié)果集成到多數(shù)表決中，給予不同驗(yàn)證狀態(tài)不同權(quán)重，使表決更可靠。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

在實(shí)際操作中，一旦一個(gè)答案被確認(rèn)為錯(cuò)誤，那就不會(huì)進(jìn)行額外的驗(yàn)證，從而得到一個(gè)錯(cuò)誤的驗(yàn)證狀態(tài)。研究人員分配相應(yīng)的權(quán)重給這些狀態(tài)：真實(shí)（wT）、不確定（wU）和錯(cuò)誤（wF）。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

最后從候選答案中擇取得分最高的那一個(gè)：

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

比此前最高水平提高30%用上了上述方法，GPT-4代碼解析器做數(shù)學(xué)題的能力up up。

在MATH數(shù)據(jù)集上，原始GPT-4代碼解析器的準(zhǔn)確率為69.69%，使用CSV提示后提高到73.54%，再結(jié)合加權(quán)多數(shù)表決后進(jìn)一步提高到84.32%，相比之前SOTA提高了30%以上。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

△在MATH數(shù)據(jù)集上的準(zhǔn)確率（%）

在MATH數(shù)據(jù)集的各個(gè)子任務(wù)中，提出方法均取得顯著提高，尤其是在高難度級(jí)別的題目中效果更明顯。例如在中級(jí)代數(shù)（Intermediate Algebra）題目中，原來(lái)的GPT-4代碼解析器準(zhǔn)確率為50.1%，使用新方法后提高到74.4%。

除此之外，研究人員還在GSM8K、MMLU-Math、MMLU-STEM等數(shù)據(jù)集上進(jìn)行了驗(yàn)證。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

△在GSM8K數(shù)據(jù)集上的表現(xiàn)

上表可以看出，使用驗(yàn)證引導(dǎo)加權(quán)多數(shù)投票的方法還可以顯著減少需要采樣的解路徑數(shù)量（Sampled paths），在GSM8K數(shù)據(jù)集上只需要5個(gè)路徑就達(dá)到97%的準(zhǔn)確率。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

△在MMLU數(shù)據(jù)集上的表現(xiàn)

針對(duì)不同難度的題目（下圖a）以及不同類型題目（下圖b）的測(cè)試中，使用新方法后準(zhǔn)確率都有了提升。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

△每條曲線上的四個(gè)點(diǎn)分別對(duì)應(yīng)于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的結(jié)果。

研究人員還發(fā)現(xiàn)GPT-4代碼解析器的代碼使用頻率提高與準(zhǔn)確率提高正相關(guān)。隨著題目難度的增加，代碼使用頻率穩(wěn)步上升。這說(shuō)明在較難的數(shù)學(xué)問(wèn)題上，更頻繁地使用代碼很重要。

此外，值得注意的是，盡管添加基于代碼的自我驗(yàn)證可以提高每個(gè)單獨(dú)題目類型的性能，但改進(jìn)的程度也因題目類型而異，從7.6%到僅0.6%不等。

研究人員指出：

特別是幾何問(wèn)題的準(zhǔn)確性僅提高了0.6%，原本GPT-4代碼解析器的準(zhǔn)確性也只有54.0%，在各個(gè)題目類型中屬于較低的。這種差異可能是因?yàn)榻鉀Q幾何問(wèn)題通常需要多模態(tài)，超出了本文研究范圍。

論文傳送門(mén)：https://arxiv.org/abs/2308.07921

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi) 網(wǎng)友：像大腦的工作方式

Tags:

大腦數(shù)學(xué)

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

GPT-4數(shù)學(xué)再提30分代碼解析器任督二脈被打開(kāi)網(wǎng)友：像大腦的工作方式

讓Karpathy倍感意外的研究：人類大腦已被塑料污染

通義千問(wèn)開(kāi)源數(shù)學(xué)模型Qwen2-Math，數(shù)學(xué)能力超越GPT-4o

阿里發(fā)布Qwen2-Math：數(shù)學(xué)推理全球第一，超越GPT-4o和Claude-3.5

首個(gè)AI高考全卷評(píng)測(cè)結(jié)果發(fā)布：最高分303數(shù)學(xué)全不及格

新架構(gòu)Mamba更新二代！作者：別爭(zhēng)了，數(shù)學(xué)上Transformer和SSM是一回事

熱門(mén)文章