論文投稿先問問GPT-4!斯坦福實(shí)測5000篇,一半意見跟人類評(píng)審一致
豐色 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
GPT-4有能力做論文評(píng)審嗎?
來自斯坦福等大學(xué)的研究人員還真測試了一把。
他們丟給GPT-4數(shù)千篇來自Nature、ICLR等頂會(huì)的文章,讓它生成評(píng)審意見(包括修改建議啥的),然后與人類給的意見進(jìn)行比較。
結(jié)果發(fā)現(xiàn):
GPT-4提出的超50%觀點(diǎn)與至少一名人類評(píng)審員一致;
以及超過82.4%的作者都發(fā)現(xiàn)GPT-4給的意見很有幫助。
那么,這項(xiàng)研究究竟能給我們帶來何種啟示?
結(jié)論是:
高質(zhì)量的人類反饋仍然不可替代;但GPT-4可以幫助作者在正式同行評(píng)審前改進(jìn)初稿。

具體來看。
實(shí)測GPT-4論文評(píng)審水平
為了證明GPT-4的潛力,研究人員首先用GPT-4創(chuàng)建了一個(gè)自動(dòng)pipeline。
它可以解析一整篇PDF格式的論文,提取標(biāo)題、摘要、圖表、表格標(biāo)題等內(nèi)容來構(gòu)建提示語。
然后讓GPT-4提供評(píng)審意見。
其中,意見和各頂會(huì)的標(biāo)準(zhǔn)一樣,共包含四個(gè)部分:
研究的重要性和新穎性、可以被接受的潛在原因或被拒絕的理由以及改進(jìn)建議。

具體實(shí)驗(yàn)從兩方面展開。
首先是定量實(shí)驗(yàn):
讀已有論文,生成反饋,然后與真實(shí)人類觀點(diǎn)系統(tǒng)地比較出重疊部分。
在此,團(tuán)隊(duì)從Nature正刊和各大子刊挑選了3096篇文章,從ICLR機(jī)器學(xué)習(xí)會(huì)議(包含去年和今年)挑選了1709篇,共計(jì)4805篇。
其中,Nature論文共涉及8745條人類評(píng)審意見;ICLR會(huì)議涉及6506條。

GPT-4給出意見之后,pipeline就在match環(huán)節(jié)分別提取人類和GPT-4的論點(diǎn),然后進(jìn)行語義文本匹配,找到重疊的論點(diǎn),以此來衡量GPT-4意見的有效性和可靠度。
結(jié)果是:
1、GPT-4意見與人類評(píng)審員真實(shí)意見顯著重疊
整體來看,在Nature論文中,GPT-4有57.55%的意見與至少一位人類評(píng)審員一致;在ICLR中,這個(gè)數(shù)字則高達(dá)77.18%。

再進(jìn)一步仔細(xì)比較GPT-4與每一位評(píng)審員的意見之后,團(tuán)隊(duì)又發(fā)現(xiàn):
GPT-4在Nature論文上和人類評(píng)審員的重疊率下降為30.85%,在ICLR上降為39.23%。
但這與兩位人類審稿人之間的重疊率相當(dāng):
人類在Nature論文上的平均重疊率為28.58%;在ICLR上為35.25%。

此外,他們還通過分析論文的等級(jí)水平(oral、spotlight、或是直接被拒絕的)發(fā)現(xiàn):
對于水平較弱的論文來說,GPT-4和人類審稿人之間的重疊率更高,可以從上面的30%多升到近50%。
這說明,GPT-4對水平較差的論文的鑒別能力很高。
作者也因此表示,那些需要更實(shí)質(zhì)性修改才能被接收的論文有福了,大伙兒可以在正式提交前多試試GPT-4給出的修改意見。
2、GPT-4可以給出非通用反饋
所謂非通用反饋,即GPT-4不會(huì)給出一個(gè)適用于多篇論文的通用評(píng)審意見。
在此,作者們衡量了一個(gè)“成對重疊率”的指標(biāo),結(jié)果發(fā)現(xiàn)它在Nature和ICLR上都顯著降低到了0.43%和3.91%。
這說明GPT-4是有針對性的。
3、能夠在重大、普遍問題上和人類觀點(diǎn)一致
一般來說,人類反饋中較先出現(xiàn)的意見以及多個(gè)評(píng)審員都提及的意見,最可能代表重要、普遍的問題。
在此,團(tuán)隊(duì)也發(fā)現(xiàn),LLM更有可能識(shí)別出多個(gè)評(píng)審員一致認(rèn)可的常見問題或缺陷。
也就是說,GPT-4在大面上是過得去的。
4、GPT-4給的意見更強(qiáng)調(diào)一些與人類不同的方面
研究發(fā)現(xiàn),GPT-4評(píng)論研究本身含義的頻率是人類的7.27倍,評(píng)論研究新穎性的可能性是人類的10.69倍。
以及GPT-4和人類都經(jīng)常建議進(jìn)行額外的實(shí)驗(yàn),但人類更
作者表示,這些發(fā)現(xiàn)表明,GPT-4和人類評(píng)審員在各方面的的重視程度各不相同,兩者合作可能帶來潛在優(yōu)勢。
定量實(shí)驗(yàn)之外是用戶研究。
在此共包括308名來自不同機(jī)構(gòu)的AI和計(jì)算生物學(xué)領(lǐng)域的研究員,他們都在本次研究中上傳了各自的論文給GPT-4進(jìn)行評(píng)審。
研究團(tuán)隊(duì)收集了他們對GPT-4評(píng)審意見的真實(shí)反饋。

總體而言,超過一半(57.4%)的參與者認(rèn)為GPT-4生成的反饋很有幫助,包括給到一些人類想不到的點(diǎn)。
以及82.4%的調(diào)查者認(rèn)為它比至少一些人類評(píng)審員的反饋更有益。
此外,還有超過一半的人(50.5%)表示,愿意進(jìn)一步使用GPT-4等大模型來改進(jìn)論文。
其中一人表示,只需要5分鐘GPT-4就給出了結(jié)果,這個(gè)反饋速度真的非常快,對研究人員改善論文很有幫助。
當(dāng)然,作者指出:
GPT-4也有它的局限性。
最明顯的是它更
所以,如作者最后總結(jié):
人類評(píng)審員的高質(zhì)量反饋還是不可或缺,但大家可以在正式評(píng)審前拿它試試水,彌補(bǔ)遺漏實(shí)驗(yàn)和構(gòu)建等方面的細(xì)節(jié)。
當(dāng)然,他們也提醒:
正式評(píng)審中,審稿人應(yīng)該還是獨(dú)立參與,不依賴任何LLM。
一作都是華人
本研究一作共三位,都是華人,都來自斯坦福大學(xué)計(jì)算機(jī)科學(xué)學(xué)院。

他們分別是:
梁偉欣,該校博士生,也是斯坦福AI實(shí)驗(yàn)室(SAIL)成員。他碩士畢業(yè)于斯坦福電氣工程專業(yè),本科畢業(yè)于浙江大學(xué)計(jì)算機(jī)科學(xué)。Yuhui Zhang,同博士生在讀,研究方向?yàn)槎嗄B(tài)AI系統(tǒng)。清華本科畢業(yè),斯坦福碩士畢業(yè)。曹瀚成,該校五年級(jí)博士在讀,輔修管理科學(xué)與工程,同時(shí)加入了斯坦福大學(xué)NLP和HCI小組。此前畢業(yè)于清華大學(xué)電子工程系本科。論文地址:https://arxiv.org/abs/2310.01783
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。