首頁 > AI資訊 > 最新資訊 > 大模型幻覺問題再成焦點,LeCun為Galactica喊冤:早ChatGPT前兩周推出的它本該風光無限

大模型幻覺問題再成焦點,LeCun為Galactica喊冤:早ChatGPT前兩周推出的它本該風光無限

新火種    2023-11-16

圖片來源:由無界 AI生成

眾所周知,幻覺問題一直是困擾大模型的一大難題。近日,一個名為 Vectara 的 AI 平臺通過自建幻覺評估模型(該模型已在Hugging Face上開源供商業使用),計算得出了目前市面上大多數公共 LLM 的幻覺頻率,并以排行榜的形式在 X 上發布了截止 11 月 1 日的測試結果。

從榜單上可以看到,GPT-4 的準確率為 97.0%,幻覺率為 3.0%,而 Google Palm 的兩款 LLM 表現墊底,其中 Palm Chat 的準確率為 72.8%,幻覺率甚至高達 27.2%。

榜單一經發出,大批網友紛紛轉發,但也有專家指出了該排行榜中所含的問題以及我們應該關注到的細節。

英偉達高級 AI 科學家Jim Fan 指出,這項研究只評估了摘要與原文的“事實一致性”,而沒有評估摘要本身的質量。通過簡單的復制,摘要總能達到 100%的事實一致性,可以做到完全不存在幻覺。此外,該評估依賴于使用另一個“judge LLM”來決定幻覺是否發生,但幾乎沒有詳細說明該如何進行提示以及如何真正捕捉謬誤。Jim Fan 舉例道,“假設模型注入了一些無關但真實的事實。比如文章只提到 ‘巴黎’,但模型卻返回‘巴黎,法國的首都’。這算不算幻覺?”

Jim Fan 表示,事實上,這項研究甚至可能會懲罰那些總結得更好的模型,因為它們往往會進行更多的轉述和提煉。此外,他也呼吁道,在下結論之前,還是務必閱讀評估協議。這一點對于 LLM 任務和其他任何 ML 系統都普遍適用。

Jim Fan 的觀點得到了很多大佬的支持,而 Meta 首席人工智能科學家 Yann Lecun 也是轉發了本條推特。

或許是這個排行榜大火,Meta 一年前發布的但只存活了三天的 LLM——Galatica 的共創者 Ross Taylor 今日也是打破沉默,轉發了 VentureBeat 關于 Galatica 因幻覺問題被網友噴到下線的故事原委。而 Yann LeCun 也是感慨道:“你知道‘早發布,勤發布’這句開源圈的老話嗎?說到人工智能,還應加上‘是的,但要準備好忽略 Twitter 上暴民們荒謬的末日預言’。”

Galactica 的故事

那么,一年前 Meta 的 Galactica 究竟發生了什么?

一年前,也就是 OpenAI 發布 ChatGPT 的兩周前,Meta 發布了一個名為 Galactica 的研究演示。作為一款開源的“科學大語言模型”,Galactica 是在包括 4800 萬篇科學論文在內的數據基礎上訓練出來的,Meta 稱 Galactica 能夠“總結學術文獻、解決數學問題、生成維基文章、編寫科學代碼、注釋分子和蛋白質等”。

然而,Galactica 只公開存活了三天。2022 年 11 月 17 日,Meta 因“幻覺”這個當時還未成為主流的詞被網友噴到撤下了演示版。許多人對 Galactica 有時非常不科學的輸出感到震驚。是的,和其他 LLM 一樣,Galactica 會輸出一些聽起來有理但實際上是錯誤的信息。

當時,Meta 首席科學家 Yann LeCun 為該模型進行了辯護,并發布了一系列推文,但一切無濟于事。Galactica 沒有成為生成式人工智能時代改變游戲規則的模型。

兩周后,ChatGPT 正式發布。盡管 ChatGPT 同樣存在幻覺問題,但這并沒有減緩 ChatGPT 成為 LLM 之星的步伐。在短短兩個月內,ChatGPT 的月用戶數量就達到了 1 億,而現在每周的用戶數量已經達到 1 億。

Ross Taylor 表示,Galactica 是當時其領域中一個很好的模型;在計算量分別減少 10 倍和 2 倍的情況下,它的性能超過 PaLM 和 Chinchilla。此外,整個研究團隊也只有 8 個人,比當時其他 LLM 團隊少了一個數量級。

然而,由于工作量巨大,團隊在沒有檢查的情況下就發布了 Galactica 基礎模型的演示。Ross Taylor 表示,發布演示的考慮因素之一是,其團隊希望了解人們用于 LLM 的科學查詢的分布情況(這對指令調整和 RLHF 非常有用)。然而網友們卻在領域之外進行了查詢,從而招致了大范圍的謾罵,團隊也失去了態勢感知能力。據 Taylor 自己講述,該團隊也曾假設分享基礎模型的所有缺陷,并在演示版上加上四個關于幻覺的免責聲明,但并沒有起作用。

Taylor 稱,另一個失誤是團隊把愿景什么的都寫在網站上,導致人們誤把網站當成了“產品”。而事實上,該團隊并沒有將其視為產品!只是一個基本模型演示。

Ross Taylor 對 Galactica 的遭遇感到痛心,但他并沒有后悔。Taylor 表示,“與其后悔,不如有所作為?!毙疫\的是,Galactica 的大部分工作和研究都促成了 LLaMA 系列的發布。

Meta 人工智能研究副總裁 Joelle Pineau 在接受 VentureBeat 采訪時解釋說:Meta“很可能錯誤地估計了”人們對 Galactica 的期望,但“我們已經將從中吸取的教訓融入到下一代模型中”。

2023 年 2 月,Meta 發布了 Llama 模型在人工智能研究領域掀起了一場風暴,隨后在 7 月,Meta 推出了商用的 Llama 2,8 月又推出了 Code Llama。隨著 Llama 成為首個主要的免費”開源“LLM,開源人工智能開始嶄露頭角,并引發了一場熱火朝天的討論。

錯誤地謾罵可能適得其反

Galactica 死于非命,正如 Lecun 所講,“它是被一群貪婪的推特暴徒謀殺的。暴徒們聲稱,我們現在所說的 LLM 幻覺將摧毀科學出版系統。結果,一個對科學家非常有用的工具被摧毀了。”

是啊,在如今大火的 AI 圈子里,獨立思考顯得尤為重要?!按蛑斯ぶ悄軅惱淼幕献?,錯誤地謾罵可能會適得其反。”

參考資料

https://venturebeat.com/ai/what-meta-learned-from-galactica-the-doomed-model-launched-two-weeks-before-chatgpt/https://github.com/vectara/hallucination-leaderboardhttps://twitter.com/rosstaylor90/status/1724547381092573352https://twitter.com/DrJimFan/status/1724464105371939301
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章