關(guān)于LLM-as-a-judge范式,終于有綜述講明白了
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本篇綜述的作者團(tuán)隊(duì)包括亞利桑那州立大學(xué)的博士研究生李大衛(wèi),蔣博涵,Alimohammad Beigi, 趙成帥,譚箴,Amrita Bhattacharje, 指導(dǎo)老師劉歡教授,來自伊利諾伊大學(xué)芝加哥分校的黃良杰,程璐教授,來自馬里蘭大學(xué)巴爾的摩郡分校的江宇軒,來自伊利諾伊理工的陳燦宇,來自加州大學(xué)伯克利分校的吳天昊以及來自埃默里大學(xué)的舒凱教授。
摘要:評(píng)估和評(píng)價(jià)長(zhǎng)期以來一直是人工智能 (AI) 和自然語(yǔ)言處理 (NLP) 中的關(guān)鍵挑戰(zhàn)。然而,傳統(tǒng)方法,無(wú)論是基于匹配還是基于詞嵌入,往往無(wú)法判斷精妙的屬性并提供令人滿意的結(jié)果。大型語(yǔ)言模型 (LLM) 的最新進(jìn)展啟發(fā)了 “LLM-as-a-judge” 范式,其中 LLM 被用于在各種任務(wù)和應(yīng)用程序中執(zhí)行評(píng)分、排名或選擇。本文對(duì)基于 LLM 的判斷和評(píng)估進(jìn)行了全面的調(diào)查,為推動(dòng)這一新興領(lǐng)域的發(fā)展提供了深入的概述。我們首先從輸入和輸出的角度給出詳細(xì)的定義。然后,我們介紹一個(gè)全面的分類法,從三個(gè)維度探索 LLM-as-a-judge:評(píng)判什么(what to judge)、如何評(píng)判(how to judge)以及在哪里評(píng)判(where to judge)。最后,我們歸納了評(píng)估 LLM 作為評(píng)判者的基準(zhǔn)數(shù)據(jù)集,并強(qiáng)調(diào)了關(guān)鍵挑戰(zhàn)和有希望的方向,旨在提供有價(jià)值的見解并啟發(fā)這一有希望的研究領(lǐng)域的未來研究。
論文鏈接:https://arxiv.org/abs/2411.16594網(wǎng)站鏈接:https://llm-as-a-judge.github.io/論文列表:https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge文章結(jié)構(gòu)
圖 1:論文結(jié)構(gòu)LLM-as-a-judge 的定義
圖 2:LLM-as-a-judge 定義在這篇工作中,我們提出根據(jù)輸入和輸出格式的區(qū)別對(duì) LLM-as-a-judge 進(jìn)行了定義。首先,根據(jù)輸入候選樣本個(gè)數(shù)的不同,在輸入的層面 LLM-as-a-judge 可以分為逐點(diǎn)和成對(duì) / 列表輸入;另外,根據(jù)模型輸出格式的不同,在輸出的層面 LLM-as-a-judge 的目的可以分為評(píng)分,排序和選擇。Attribute:評(píng)判什么
圖 3:LLM 能夠評(píng)判各種屬性。LLM-as-a-judge 已經(jīng)被證明可以在多種不同類型的屬性上提供可靠的評(píng)判,在這個(gè)章節(jié)中,我們對(duì)他們進(jìn)行了總結(jié),它們包括:回復(fù)的幫助性,無(wú)害性,可靠性,生成 / 檢索文檔的相關(guān)性,推理過程中每一步的可行性,以及生成文本的綜合質(zhì)量。Methodology:如何評(píng)判
表 1:LLM-as-a-judge 訓(xùn)練方法(1)微調(diào):最近許多工作開始探索如何使用微調(diào)技術(shù)來訓(xùn)練一個(gè)專門的評(píng)判大模型,我們?cè)谶@一章節(jié)中對(duì)這些技術(shù)進(jìn)行了總結(jié)歸納,包括它們的數(shù)據(jù)源,標(biāo)注者,數(shù)據(jù)類型,數(shù)據(jù)規(guī)模,微調(diào)技術(shù)及技巧等(表 1)。其中我們根據(jù)數(shù)據(jù)來源(人工標(biāo)注和模型反饋)和微調(diào)技術(shù)(有監(jiān)督微調(diào)和偏好學(xué)習(xí))對(duì)這些工作進(jìn)行了詳細(xì)討論。
圖 4:LLM-as-a-judge prompting 方法(2)提示:提示(prompting)技術(shù)可以有效提升 LLM-as-a-judge 的性能和效率。在這一章節(jié)中,我們總結(jié)了目前工作中常用到幾類提示策略,分別是:交換操作,規(guī)則增強(qiáng),多智能體合作,演示增強(qiáng),多輪動(dòng)態(tài)交互和對(duì)比加速。Application:何時(shí)評(píng)判
圖 5:LLM-as-a-judge 應(yīng)用和場(chǎng)景(1)評(píng)估:傳統(tǒng) NLP 中的評(píng)估通常采用靜態(tài)的指標(biāo)作為依據(jù),然而它們常常不能夠很好的捕捉細(xì)粒度的語(yǔ)義信息。因此,LLM-as-a-judge 被廣泛引入到模型評(píng)估的場(chǎng)景中,進(jìn)行開放式生成,推理過程以及各種新興 NLP 任務(wù)的評(píng)測(cè)。(2)對(duì)齊:對(duì)齊技術(shù)通常需要大量人工標(biāo)注的成對(duì)偏好數(shù)據(jù)來訓(xùn)練獎(jiǎng)勵(lì)或者策略模型,通過引入 LLM-as-a-judge 技術(shù),采用更大的模型或者策略模型本身作為評(píng)估者,這一標(biāo)注過程的時(shí)間和人力成本被大大優(yōu)化。(3)檢索:檢索場(chǎng)景同樣得益于 LLM-as-a-judge 對(duì)于文本相關(guān)性和幫助性強(qiáng)大的判別能力。其中對(duì)于傳統(tǒng)的檢索應(yīng)用,LLM-as-a-judge 通過判斷文檔和用戶請(qǐng)求的相關(guān)性來選擇最符合用戶喜好的一組文檔。另外,LLM-as-a-judge 還被應(yīng)用于檢索增強(qiáng)生成(RAG)的過程中,通過 LLM 自己來選擇對(duì)后續(xù)生成最有幫助的輔助文檔。(4)推理:在推理過程中,LLM 在很多場(chǎng)景下會(huì)被賦予使用工具,API 或者搜索引擎的權(quán)限。在這些任務(wù)中,LLM-as-a-judge 可以依據(jù)當(dāng)前的上下文和狀態(tài)選擇最合理可行的外部工具。另外,LLM-as-a-judge 還被廣泛引用于推理路徑的選擇,通過過程獎(jiǎng)勵(lì)指導(dǎo)模型進(jìn)行狀態(tài)步驟轉(zhuǎn)移?;鶞?zhǔn):評(píng)判 LLM-as-a-judge如表 2 所示,我們總結(jié)了不同針對(duì) LLM-as-a-judge 的基準(zhǔn)測(cè)試集,并從數(shù)據(jù) / 任務(wù)類型,數(shù)據(jù)規(guī)模,參考文本來源,指標(biāo)等多個(gè)方面對(duì)這些數(shù)據(jù)集做了總結(jié)歸納。其中,根據(jù)基準(zhǔn)測(cè)試集目的的不同,大致可以分為:偏見量化基準(zhǔn),挑戰(zhàn)性任務(wù)基準(zhǔn),領(lǐng)域特定基準(zhǔn),以及其他多語(yǔ)言,多模態(tài),指令跟隨基準(zhǔn)等等。
表 2:LLM-as-a-judge 數(shù)據(jù)集和基線展望:挑戰(zhàn)和機(jī)遇(1)偏見與脆弱性:大模型作為評(píng)判者,一直受困擾于各種各樣影響評(píng)價(jià)公平性的偏見,例如順序偏見,自我偏好偏見,長(zhǎng)度偏見等。同時(shí),基于大模型的評(píng)價(jià)系統(tǒng)在面對(duì)外部攻擊時(shí)的魯棒性也存在一定不足。因此,LLM-as-a-judge 未來工作的一個(gè)方向是研究如何揭露和改善這些偏見,并提升系統(tǒng)面對(duì)攻擊的魯棒性。(2)更動(dòng)態(tài),復(fù)雜的評(píng)判:早期的 LLM-as-a-judge 通常只采用比較簡(jiǎn)單的指令來 prompt 大模型。隨著技術(shù)的發(fā)展,越來越多復(fù)雜且動(dòng)態(tài)的 LLM-as-a-judge 框架被開發(fā)出來,例如多智能體判斷和 LLM-as-a-examiner。在未來,一個(gè)有前景的研究方向是開發(fā)具有人類評(píng)判思維的大模型智能體;另外,開發(fā)一個(gè)基于大模型自適應(yīng)難度的評(píng)判系統(tǒng)也很重要。(3)自我判斷:LLM-as-a-judge 長(zhǎng)期以來一直受困擾于 “先有雞還是先有蛋” 的困境:強(qiáng)大的評(píng)估者對(duì)于訓(xùn)練強(qiáng)大的 LLM 至關(guān)重要,但通過偏好學(xué)習(xí)提升 LLM 則需要公正的評(píng)估者。理想狀況下,我們希望最強(qiáng)大的大模型能夠進(jìn)行公正的自我判斷,從而不斷優(yōu)化它自身。然而,大模型具有的各種判斷偏見偏好使得它們往往不能夠客觀的評(píng)價(jià)自己輸出的內(nèi)容。在未來,開發(fā)能夠進(jìn)行自我評(píng)判的(一組)大模型對(duì)于模型自我進(jìn)化至關(guān)重要。(4)人類協(xié)同大模型共同判斷:直覺上,人工的參與和校對(duì)可以緩解 LLM-as-a-judge 存在偏見和脆弱性。然而,只有少數(shù)幾篇工作關(guān)注這個(gè)方向。未來的工作可以關(guān)注如何用 LLM 來進(jìn)行數(shù)據(jù)選擇,通過選擇一個(gè)很小但很具有代表性的測(cè)試子集來進(jìn)行人工評(píng)測(cè);同時(shí),LLM-as-a-judge 也可以從其他具有成熟的人機(jī)協(xié)同方案的領(lǐng)域受益??偨Y(jié)本文探討了 LLM-as-a-judge 的驚喜微妙之處。我們首先根據(jù)輸入格式(逐點(diǎn)、成對(duì)和列表)和輸出格式(包括評(píng)分、排名和選擇)對(duì)現(xiàn)有的基于 LLM-as-a-judge 進(jìn)行定義。然后,我們提出了一個(gè)全面的 LLM-as-a-judge 的分類法,涵蓋了判斷屬性、方法和應(yīng)用。此后,我們介紹了 LLM-as-a-judge 的詳細(xì)基準(zhǔn)集合,并結(jié)合了對(duì)當(dāng)前挑戰(zhàn)和未來方向的深思熟慮的分析,旨在為這一新興領(lǐng)域的未來工作提供更多資源和見解。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。