首頁 > AI資訊 > 最新資訊 > GalileoLab推出檢測AI幻覺的新指標

GalileoLab推出檢測AI幻覺的新指標

新火種    2023-12-08

劃重點:

- Galileo Lab 的新指標可以幫助改進生成 AI 的準確性,檢測 AI 幻覺問題。

- OpenAI GPT-4在基本問答任務中有大約23% 的幻覺傾向,其他模型則更差,達到60%。

- Galileo Labs 開發的新指標包括正確性和上下文一致性,可以幫助企業在其 AI 實現中測試和減輕幻覺問題。

站長之家 11月28日 消息:幻覺問題正在成為AI 一個主要問題,因為新的 AI 工具在噴發出具有權威性的廢話方面越來越出色。實際上,劍橋詞典將 “幻覺” 定為2023年的年度詞匯。

研究人員和供應商正在開發一系列新算法,以檢測和減輕在驅動 ChatGPT 和日益用于企業應用的大型語言模型(LLMs)中出現的幻覺問題。其中一個新工具是 Galileo Labs 的新幻覺指標,它根據 LLMs 的幻覺傾向對其進行排名。

值得注意的是,OpenAI GPT-4,表現最好的模型之一,在基本問答任務中大約有23% 的幻覺傾向。其他一些模型則更差,幻覺傾向達到60%。在幕后,事情要復雜一些,并利用了新開發的度量標準,如正確性和上下文一致性。該公司還開發了工具和工作流程,以幫助企業在其自己的 AI 實現中測試和減輕這些幻覺問題。

AI機器人打游戲

圖源備注:圖片由AI生成,圖片授權服務商Midjourney

Galileo Labs 的聯合創始人兼首席執行官 Vikram Chatterji 表示,該公司將幻覺定義為生成的信息或數據在事實上是不正確的、不相關的或沒有根據所提供的輸入進行驗證的?;糜X的性質及其如何測量取決于任務類型,這就是為什么他們按任務類型來構建了幻覺指數的原因。

例如,在需要上下文的問答場景中,LLM 必須檢索正確的上下文,并根據檢索到的上下文提供基于上下文的響應。使用檢索增強生成等技術,可以為 LLM 提供一些相關的摘要,從而通常改進結果。然而,GPT-4在使用檢索增強生成時實際上效果稍差。

在其他情況下,例如長篇文本生成,能夠測試 LLM 提供的響應的真實性是很重要的。在這里,新的正確性度量標準可以識別不與任何具體文件或上下文相關的事實錯誤。

Chatterji 表示,他們已經確定了幾個影響 LLM 幻覺傾向的因素。其中一些因素包括:

任務類型:LLM 是否被要求完成特定領域或通用任務?在 LLM 被要求回答特定領域問題(例如引用公司文件并回答問題)的情況下,LLM 是否能夠有效地引用和檢索所需的上下文?

LLM 規模:LLM 被訓練的參數有多少?更大并不總是意味著更好。

上下文窗口:在需要檢索增強生成的特定領域場景中,LLM 的上下文窗口和限制是什么?例如,加州大學伯克利分校、斯坦福大學和 Samaya AI 研究人員最近發表的一篇論文強調了 LLM 無法有效檢索提供文本中間位置的信息。

Chatterji 承認還有許多其他因素需要考慮,因為幻覺是多方面的,需要細致入微的方法。為了簡化檢測幻覺的過程,Galileo Labs 的研究人員開發了一種新的幻覺檢測方法,稱為 ChainPoll。他們最近的一篇論文詳細介紹了它的工作原理。

但從高層次上來看,他們聲稱這種方法比以前的幻覺檢測技術更具成本效益,大約節約了20倍的成本。它利用了一種稱為思維成本的提示工程方法,可以幫助從模型中引出具體和系統化的解釋,以便用戶更好地理解為什么會發生幻覺,并且這是邁向更可解釋的 AI 的重要一步。

這些新工具幫助 Galileo Labs 的研究人員開發了 Hallucination Index 中使用的兩個幻覺評估指標。Chatterji 認為,與競爭方法相比,這些新指標似乎在量化 LLM 輸出質量方面做得更好,而且適用于常見任務類型(如聊天、摘要和生成),無論是否使用檢索增強生成,同時還具有成本效益、高效和快速處理的特點。它們似乎也與人類反饋相關性較高。

需要注意的是,這些指標反映的是幻覺發生的概率,而不是幻覺的絕對度量。例如,0.70的正確性得分表示回答中有30% 的幻覺概率。關于新指標的細微之處如下:

正確性:衡量給定模型回答是否準確。正確性揭示了所謂的開放領域幻覺,即不與任何具體文件或上下文相關的事實錯誤。正確性得分越高,回答準確的概率越高。這對于評估長篇文本生成和無檢索增強的問答任務很有用。

上下文一致性:上下文一致性評估模型回答與給定上下文的嚴格一致程度,作為衡量閉域幻覺的度量標準,即模型生成與提供給模型的上下文不一致的內容。較低的得分表示模型回答不包含在所提供的上下文中。這對于評估具有檢索增強的問答任務很有用。

由于在各種任務中使用了不同的指標,因此不能進行真正的蘋果對蘋果的比較。例如,GPT-4在無檢索增強的問答任務中的正確性得分為0.77,但在使用檢索增強時的上下文一致性得分略低,為0.76。大多數其他模型在使用檢索增強時改善了相關指標。

這些指標為構建 LLM 應用的團隊提供了持續的反饋循環,并顯著減少了啟動安全可靠的 LLM 應用所需的開發時間。Chatterji 解釋道:

這些指標使團隊能夠在開發過程中對提示、上下文、模型選擇等進行迭代和測試,找到有效的組合。這些指標還允許團隊在生產中評估 LLM 輸出。憑借這些指標,團隊可以快速識別需要額外關注的輸入和輸出,以及驅動這種次優行為的基礎數據、上下文和提示。

企業團隊已經在開發工作流程中使用這些幻覺檢測指標。它們還有助于生產監控,并在輸出開始下降時觸發主動警報和通知。

然而,值得注意的是,這些新指標仍然是一個正在進行的工作。例如,它們與人類反饋僅有85% 的相關性。多模態 LLMs 在跨不同類型的數據(如文本、代碼、圖像、聲音和視頻)上工作時還需要更多的工作。此外,他們計劃隨著新的流行 LLMs 的出現而擴大列表。Chatterji 表示:

幻覺研究領域尚處于初級階段,令人興奮,并且有很多實驗的方向。

在最近的 Open AI 事件中,首席執行官 Sam Altman 最近表示,他們在使 LLMs 減少幻覺方面可能遇到了難題。需要新的方法來發現更深層次的物理規律。

在劍橋的一次公開討論中,Altman 說:

我們需要突破。我們可以在大型語言模型上投入很多努力,我們將繼續這樣做。我們可以攀登我們所在的山丘,而且山峰仍然相當遙遠。但是,在合理范圍內,我不認為這對于 AGI 來說是至關重要的... 如果超級智能不能發現新的物理規律,我不認為它是超級智能。而且,教它克隆人類行為和人類文本的行為 - 我不認為這樣做能夠實現目標。因此,這里有一個問題,該問題在該領域已經爭論了很長時間,即除了語言模型之外,我們還需要做什么才能使一個系統能夠發現新的物理規律,這將是我們下一個任務。

從 LLMs 的突破性發現到今天減少一些幻覺問題,已經花費了近六年的時間。隨著市場上推出的大量新的 AI 專用硬件和普遍的熱情,任何后續方法要達到同樣的接受程度和工具化可能需要更少的時間。

與此同時,Galileo Labs 等檢測和減少幻覺的工具將幫助企業更安全地利用 LLMs。

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章