欧美日韩国产一区在线,欧美专区日韩视频人妻,亚洲视频色图

首頁 > AI資訊 > 最新資訊 > 慢思考準(zhǔn)確率反降30%！普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

慢思考準(zhǔn)確率反降30%！普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

新火種 2024-11-05

OpenAI o1徹底帶火慢思考和思維鏈（CoT）方法，但CoT在某些任務(wù)上反而會降低模型表現(xiàn)。

比如給生造的詞分類任務(wù)，GPT-4在zero-shot提示下的準(zhǔn)確率高達(dá)94%，換成CoT的準(zhǔn)確率卻斷崖式下跌到64.4%。

內(nèi)置CoT的o1-preview準(zhǔn)確率更是只有57.7%。

慢思考準(zhǔn)確率反降30%！普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

CoT究竟會“搞砸”哪些任務(wù)，在學(xué)術(shù)界仍是一個懸而未決的問題。

現(xiàn)在，普林斯頓計算機(jī)系與心理系合作，確定了其中一些任務(wù)的特征：人類深思熟慮或被要求解釋自己的思路時，也會降低在這些任務(wù)上的表現(xiàn)。

新論文“一步一步想，但小心腳下”已上傳到arXiv。

心理學(xué)探索思維鏈掉鏈子原因

為了縮小要探索的范圍，團(tuán)隊在CoT提示和人類進(jìn)行語言思考之間進(jìn)行了類比。

大模型和人類具能力有著根本不同，因此影響表現(xiàn)的約束因素也不同。如大模型的上下文長度很長，遠(yuǎn)遠(yuǎn)超出了人類的記憶限制。

因此，團(tuán)隊預(yù)計CoT將在以下情況下?lián)p害模型性能：

（i）深思熟慮會損害人類的表現(xiàn)（ii）影響人類在任務(wù)上表現(xiàn)的約束條件，可以普遍性地推廣到大模型。

在實驗中，選擇了心理學(xué)文獻(xiàn)中的6項任務(wù)，其中隱式統(tǒng)計學(xué)習(xí)、面部識別、包含異常的數(shù)據(jù)分類符合假設(shè)條件。

隱式統(tǒng)計學(xué)習(xí)（Implicit Statistical Learning）

心理學(xué)研究發(fā)現(xiàn)，當(dāng)包含統(tǒng)計模式的數(shù)據(jù)不用語言來描述時，人類可以更好地概括這些數(shù)據(jù)。

使用有限狀態(tài)語法構(gòu)建“人造單詞”，參與者的任務(wù)是識別哪些單詞屬于同一類別。

人類參與者可以識別格式不正確的序列，但無法用語言表達(dá)他們判斷的基礎(chǔ)。

在幾個開源和閉源模型上評估這項任務(wù)，發(fā)現(xiàn)與zero-shot提示相比，使用CoT提示時性能大幅降低。

面部識別（Facial Recognition）

另一類任務(wù)中語言思考會干擾視覺感知，稱為語言遮蔽（verbal overshadowing）。

在實驗中選用了經(jīng)典的人臉識別任務(wù)，首先展示一個人臉照片，要求參與者從候選列表中找出同一個人。

人類參與者不說話直接選準(zhǔn)確率更高，先描述看到的人臉再選的話面部識別能力反而受損。

多模態(tài)大模型的表現(xiàn)相似，當(dāng)使用CoT提示時，所有模型性能都下降。其中較弱的模型傾向于回答“所有圖像都是同一個人的”。

包含異常的數(shù)據(jù)分類（Classifying Data With Patterns That Contain Exceptions）

第三類任務(wù)設(shè)置比較復(fù)雜，其中包含一個陷阱。

有10輛不同的車需要分為A類和B類，每輛車有5個特征：

1個獨特特征（車牌號，每輛車不同）1個看起來有規(guī)律的特征，如顏色，但有20%的例外。3個與分類無關(guān)的特征，如變速箱類型、座椅材質(zhì)、車門數(shù)量

實際上只有車牌號才是最可靠的分類依據(jù)。

如果10輛車沒有全部猜對，就會重新打亂順序再來一輪，最多可以嘗試15輪。

不用CoT提示時，模型很快就能記住每輛車的正確分類。使用CoT時，模型會陷入試圖總結(jié)規(guī)律的思維定式，需要嘗試的輪數(shù)增加。

和人類在被要求解釋分類依據(jù)時的表現(xiàn)很像。

大模型和人類約束條件不同

同時，研究團(tuán)隊也找出三種，滿足思考降低人類表現(xiàn)，但大模型使用CoT提示能提升性能的任務(wù)。

自然語言推理空間直覺（涉及模型缺乏相關(guān)先驗知識）涉及工作記憶限制的任務(wù) 慢思考準(zhǔn)確率反降30%！普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

團(tuán)隊分析原因認(rèn)為，模型和人類具有根本不同的能力，存在不同的約束條件影響其性能，

這是因為大模型擁有遠(yuǎn)超人類的工作記憶（上下文長度）和某些特定的邏輯推理能力。

換言之，CoT到底好不好用，還得具體情況具體分析。

這項研究更大的意義在于，將認(rèn)知心理學(xué)與大模型之間建立了聯(lián)系。

論文的討論部分提出，心理學(xué)界幾十年來積累的豐富文獻(xiàn)中，或許還能找出更多推進(jìn)大模型領(lǐng)域的見解。

論文地址：https://arxiv.org/abs/2410.213

Tags:

準(zhǔn)確率思維

相關(guān)推薦

慢思考準(zhǔn)確率反降30%！普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

2024-11-05

腦機(jī)接口大戰(zhàn)打響：瑞士芯片MiniBMI91%準(zhǔn)確率，秒殺馬斯克Neuralink

2024-09-03

全球首個月球?qū)I(yè)大模型發(fā)布：撞擊坑識別準(zhǔn)確率超80%

2024-08-29

全華人團(tuán)隊推出多模態(tài)大模型新基準(zhǔn)，GPT-4o準(zhǔn)確率僅為65.5%

2024-06-17

OpenAI公開破解GPT-4思維的新方法，Ilya也參與了！

2024-06-11

免責(zé)聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。交易和投資涉及高風(fēng)險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

慢思考準(zhǔn)確率反降30%！普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

慢思考準(zhǔn)確率反降30%！普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

腦機(jī)接口大戰(zhàn)打響：瑞士芯片MiniBMI91%準(zhǔn)確率，秒殺馬斯克Neuralink

全球首個月球?qū)I(yè)大模型發(fā)布：撞擊坑識別準(zhǔn)確率超80%

全華人團(tuán)隊推出多模態(tài)大模型新基準(zhǔn)，GPT-4o準(zhǔn)確率僅為65.5%

OpenAI公開破解GPT-4思維的新方法，Ilya也參與了！

熱門文章

腦機(jī)接口大戰(zhàn)打響：瑞士芯片MiniBMI91%準(zhǔn)確率，秒殺馬斯克Neuralink

全華人團(tuán)隊推出多模態(tài)大模型新基準(zhǔn)，GPT-4o準(zhǔn)確率僅為65.5%

OpenAI公開破解GPT-4思維的新方法，Ilya也參與了！