首頁(yè) > AI資訊 > 最新資訊 > 多模態(tài)物體幻覺(jué)下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,專(zhuān)攻三大幻覺(jué)成因

多模態(tài)物體幻覺(jué)下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,專(zhuān)攻三大幻覺(jué)成因

新火種    2023-11-08

原文來(lái)源:新智元

圖片來(lái)源:由無(wú)界 AI生成

自GPT多模態(tài)亮相以來(lái),開(kāi)源多模態(tài)大模型層出不窮。

在人工智能領(lǐng)域,融合多種模態(tài)的大規(guī)模模型已被廣大研究者和業(yè)界視為發(fā)展的主流方向,也被認(rèn)為是構(gòu)建通用AI助手的核心組件。

國(guó)內(nèi)外一些研究人員在GPT-4V未真正亮相期間,推出了一些代表作,如LLaVa, MiniGPT-4, Mplug-Owl等,這些開(kāi)源模型在自然指令跟蹤和視覺(jué)推理能力方面展示了非常強(qiáng)大的性能。

但有一個(gè)問(wèn)題也一直困擾著眾多研究人員: 這些多模態(tài)大模型在能理解真實(shí)圖像的同時(shí),也被嚴(yán)重的幻覺(jué)問(wèn)題所困擾:看圖說(shuō)瞎話,胡編亂造等問(wèn)題時(shí)常出現(xiàn),對(duì)視覺(jué)摘要、推理等視覺(jué)語(yǔ)言任務(wù)產(chǎn)生了非常大的負(fù)面影響。

今年10月, 北卡教堂山、斯坦福、哥大、羅格斯等大學(xué)的研究人員系統(tǒng)分析了LVLMs中幻覺(jué)的三種成因, 并且提出了一個(gè)通用的解決方案LURE(LVLM Hallucination Revisor,幻覺(jué)修正器),通過(guò)重建一個(gè)包含更少幻覺(jué)的描述來(lái)糾正LVLM中的物體幻覺(jué)(object hallucination)問(wèn)題,可以與任意LVLM進(jìn)行無(wú)縫集成。

論文地址: https://arxiv.org/abs/2310.00754

代碼地址: https://github.com/YiyangZhou/LURE

LURE的設(shè)計(jì)基于對(duì)產(chǎn)生物體幻覺(jué)的關(guān)鍵因素,進(jìn)行嚴(yán)格統(tǒng)計(jì)分析,包括共現(xiàn)(某些物體在圖像中與其他物體一起頻繁出現(xiàn))、不確定性(在LVLM解碼期間具有較高不確定性的物體)和物體位置(幻覺(jué)通常出現(xiàn)在生成文本的后面部分)。

研究人員在六個(gè)開(kāi)源LVLM上對(duì)LURE進(jìn)行評(píng)估了,與之前的最佳方法相比,通用物體幻覺(jué)評(píng)估指標(biāo)提高了23%;在GPT和人工評(píng)估中,LURE始終名列前茅。

幻覺(jué)從哪來(lái),為什么會(huì)產(chǎn)生這樣的幻覺(jué)?

研究人員對(duì)LVLMs產(chǎn)生幻覺(jué)的原因進(jìn)行了系統(tǒng)性的分析,可以歸結(jié)為如下三個(gè)因素:

1. 物體間的同現(xiàn)和假相關(guān)性

研究人員對(duì)不同對(duì)LVLMs對(duì)于訓(xùn)練集合中圖片相應(yīng)的描述統(tǒng)計(jì)發(fā)現(xiàn),大部分幻覺(jué)的描述中的物體都會(huì)存在較高的共現(xiàn)分?jǐn)?shù),也就是說(shuō)幻覺(jué)物體極大概率是經(jīng)常一起出現(xiàn)的物體。

例如:一張圖片中有草和天空,那么出現(xiàn)幻覺(jué)的描述中的幻覺(jué)物體大概率可能是樹(shù)木、鳥(niǎo)兒,因?yàn)檫@些物體在訓(xùn)練集合中經(jīng)常一起出現(xiàn)。

2. 解碼過(guò)程的不確定性

同時(shí)幻覺(jué)物體大概率是解碼過(guò)程中不太確定的物體,這種不確定性會(huì)導(dǎo)致模型在解碼過(guò)程中錯(cuò)誤選擇概率差不多且不太確定的物體,導(dǎo)致描述中出現(xiàn)了幻覺(jué)。

3、位置關(guān)系

同時(shí)研究人員觀察了大量的幻覺(jué)描述發(fā)現(xiàn),幻覺(jué)集中出現(xiàn)在模型響應(yīng)圖像的描述的后半段,這可能是模型前面的輸出的錯(cuò)誤觸發(fā)了后續(xù)幻覺(jué)的滾雪球。

為了驗(yàn)證上述分析的可靠性,研究人員還對(duì)這三個(gè)因素對(duì)于幻覺(jué)的貢獻(xiàn)進(jìn)行了詳細(xì)的理論證明。

方法介紹

那么如何減少這樣的幻覺(jué)呢?

為了減少LVLMs幻覺(jué),研究團(tuán)隊(duì)提出了首個(gè)多模態(tài)幻覺(jué)緩解方案LURE:基于上述分析的關(guān)鍵因素,LURE通過(guò)物體幻覺(jué)修正器,能與任意LVLM無(wú)縫銜接,對(duì)不準(zhǔn)確的描述進(jìn)行糾正。

訓(xùn)練流程

推理流程

實(shí)驗(yàn)及結(jié)果

效果怎么樣呢?

在六個(gè)開(kāi)源的LVLMs上,LURE都證明了自己的有效性。

在各種評(píng)估指標(biāo)下,如CHAIR、GPT評(píng)估以及人類(lèi)評(píng)估,它都能顯著減少至少23%的物體幻覺(jué)。

本文將MiniGPT-4 llama7B作為基準(zhǔn)模型用于訓(xùn)練LURE,然后集成于6個(gè)開(kāi)源的LVLM,與其余減少幻覺(jué)的basline相比LURE能大幅降低模型輸出時(shí)的幻覺(jué):

研究人員同時(shí)進(jìn)行了消融實(shí)驗(yàn),證明了LURE算法適用于各種LVLMs

且不依賴(lài)于數(shù)據(jù)集本身所帶來(lái)的性能偏移。

此外之前分析的三個(gè)因素在LURE后處理之后都能有明顯的改善:

由于幻覺(jué)評(píng)估除了經(jīng)典的CHAIR,沒(méi)有其他評(píng)估指標(biāo),研究人員還分析了傳統(tǒng)的機(jī)器翻譯指標(biāo)是否適用于幻覺(jué)的評(píng)估:

案例分析

參考資料:

https://arxiv.org/abs/2310.00754

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章