對(duì)AI的可靠性質(zhì)疑,科學(xué)家揭示零模型在大模型基準(zhǔn)測(cè)試取得高勝率
隨著大語(yǔ)言模型在眾多領(lǐng)域的廣泛應(yīng)用,基準(zhǔn)測(cè)試成為了評(píng)估模型質(zhì)量的關(guān)鍵工具。
但是,如果測(cè)試結(jié)果受到不當(dāng)影響,例如操縱模型輸出的長(zhǎng)度或風(fēng)格來(lái)操縱勝率,模型性能的排名可能因此失去可信度,進(jìn)而直接影響整個(gè)行業(yè)的信任和技術(shù)進(jìn)步。
為促進(jìn)更加公平和可靠的評(píng)價(jià)體系,新加坡 Sea AI Lab 和新加坡管理大學(xué)團(tuán)隊(duì)合作,顛覆了傳統(tǒng)意義上針對(duì)有意義輸出的對(duì)抗性攻擊。
他們提出,將完全無(wú)意義的“零模型”(Null Model)作為極端測(cè)試也可以利用評(píng)估過(guò)程中的結(jié)構(gòu)性弱點(diǎn),欺騙自動(dòng)基準(zhǔn)測(cè)試并獲得高勝率。
更令人擔(dān)憂的是,由于研究假設(shè)這些基準(zhǔn)測(cè)試的指令(例如 AlpacaEval 2.0 的 805 個(gè)樣本)是私有的且無(wú)法被訪問(wèn),因此這些作弊輸出可以被轉(zhuǎn)移。
研究人員揭示了現(xiàn)有自動(dòng)化大模型基準(zhǔn)測(cè)試(例如 AlpacaEval 2.0)的脆弱性,并驗(yàn)證了這些漏洞不僅存在于開(kāi)源模型,也會(huì)影響到廣泛使用的商業(yè)大模型。
該研究有望改進(jìn)模型評(píng)估方法,幫助開(kāi)發(fā)者改進(jìn)評(píng)估機(jī)制,確保評(píng)估結(jié)果真實(shí)反映模型能力,進(jìn)而推動(dòng)行業(yè)更加重視模型的實(shí)際性能。
它不僅為開(kāi)發(fā)更強(qiáng)大的反作弊機(jī)制提供了實(shí)驗(yàn)依據(jù),還可能基于此推動(dòng)行業(yè)制定更嚴(yán)格的基準(zhǔn)測(cè)試規(guī)范,提升 AI 技術(shù)的透明度和公平性。

圖丨左至右依次為:鄭曉森、龐天宇、杜超;下排從左至右依次為:劉乾、蔣靜、林敏(來(lái)源:該團(tuán)隊(duì))
日前,相關(guān)論文以《在自動(dòng)大語(yǔ)言模型基準(zhǔn)測(cè)試中作弊:零模型獲得高勝率》(Cheating automatic LLM benchmarks:Null models achieve high win rates)為題發(fā)表在預(yù)印本網(wǎng)站 arXiv[1]。
Sea AI Lab 鄭曉森博士是共同第一作者,高級(jí)研究員龐天宇是共同第一作者兼共同通訊作者,新加坡管理大學(xué)蔣靜教授擔(dān)任共同通訊作者,其他論文作者還包括 Sea AI Lab 高級(jí)研究員杜超、研究員劉乾和首席研究員林敏。

圖丨相關(guān)論文(來(lái)源:arXiv)
需要了解的是,零模型是一種始終輸出固定對(duì)抗文本的模型,無(wú)論輸入指令是怎樣的,其輸出內(nèi)容均與指令無(wú)關(guān)。
在該研究中,零模型被設(shè)計(jì)為一種“極簡(jiǎn)”作弊形式,用于證明現(xiàn)有基準(zhǔn)測(cè)試的評(píng)價(jià)機(jī)制可以被無(wú)意義的固定輸出操控,從而取得高勝率。
研究人員在實(shí)驗(yàn)中發(fā)現(xiàn),盡管零模型的輸出完全無(wú)意義,但借助某些結(jié)構(gòu)化設(shè)計(jì)和優(yōu)化技巧,仍能夠在多個(gè)基準(zhǔn)測(cè)試中達(dá)到頂級(jí)勝率。
這表明,現(xiàn)有基準(zhǔn)測(cè)試可能存在評(píng)估偏差,例如對(duì)特定輸出長(zhǎng)度或結(jié)構(gòu)的偏好。
如果基準(zhǔn)測(cè)試被操控,不僅會(huì)誤導(dǎo)模型研發(fā)方向,還可能導(dǎo)致低質(zhì)量模型被誤認(rèn)為高性能,進(jìn)而威脅實(shí)際應(yīng)用的安全性和用戶信任。
為確保可信度,該團(tuán)隊(duì)提出開(kāi)發(fā)反作弊機(jī)制,例如多樣化測(cè)試樣本、隨機(jī)化評(píng)估模板,以及引入人類評(píng)估與自動(dòng)化評(píng)估結(jié)合的機(jī)制。
據(jù)了解,該研究中最大的挑戰(zhàn)在于,如何設(shè)計(jì)出一種能夠在不同基準(zhǔn)測(cè)試中普遍適用的作弊方法,同時(shí)還需要在不訪問(wèn)測(cè)試樣本的情況下優(yōu)化響應(yīng)。
為解決該問(wèn)題,研究人員通過(guò)人工優(yōu)化和隨機(jī)搜索算法的結(jié)合,成功設(shè)計(jì)出具有高度轉(zhuǎn)移性的對(duì)抗性前綴,從而克服了這一困難。

圖丨該研究中作弊器的勝率和得分,并與 2024 年 10 月 1 日之前記錄的最先進(jìn)的模型進(jìn)行比較(來(lái)源:arXiv)
他們將零模型與其他先進(jìn)模型進(jìn)行了比較,并使用 GPT-4-1106-Preview 作為自動(dòng)標(biāo)注器進(jìn)行評(píng)估。
結(jié)果顯示,結(jié)合隨機(jī)搜索的結(jié)構(gòu)化響應(yīng)(Structured+RS)在所有基準(zhǔn)測(cè)試中顯著提高了性能,并實(shí)現(xiàn)了最高的勝率和得分。
其中,零模型在 AlpacaEval 2.0 上獲得了 86.5% 的長(zhǎng)度控制勝率,在 Arena-Hard-Auto 上達(dá)到了 83.0% 的勝率,在 MT-Bench 上的分?jǐn)?shù)為 9.55。
值得關(guān)注的是,該課題組對(duì)開(kāi)源與商業(yè)大模型在零模型場(chǎng)景下的表現(xiàn)進(jìn)行了對(duì)比。
他們發(fā)現(xiàn),商業(yè)大模型(如 GPT-4)雖然更強(qiáng)大,但對(duì)該研究所提出的結(jié)構(gòu)化欺騙提示更敏感。而開(kāi)源大模型(如 Llama-3)因指令跟隨能力稍弱,對(duì)該攻擊的敏感性略低。
在接下來(lái)的研究階段,該課題組計(jì)劃研究更加復(fù)雜的作弊方法,模擬潛在的真實(shí)威脅。并且,開(kāi)發(fā)基于對(duì)抗性樣本檢測(cè)的自動(dòng)化反作弊機(jī)制。
此外,他們還打算探討跨模態(tài)基準(zhǔn)測(cè)試的設(shè)計(jì)和評(píng)估,以確保評(píng)測(cè)體系對(duì)多模態(tài)任務(wù)的公平性。
參考資料:
運(yùn)營(yíng)/排版:何晨龍
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。