首頁 > AI資訊 > 最新資訊 > 不讓視覺語言模型「盲猜」,性能竟直接提升一倍?

不讓視覺語言模型「盲猜」,性能竟直接提升一倍?

新火種    2024-11-15

圖片

AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

團隊的共同一作林之秋(Zhiqiu Lin)是卡內基梅隆大學的博士研究生,由Deva Ramanan教授指導,專注于視覺-語言大模型的自動評估與優(yōu)化。團隊的馬紫晛(Zixian Ma)是華盛頓大學的博士研究生,由Ranjay Krishna教授指導,專注于視覺-語言大模型的評測以及與人的交互。

在諸如 MME、MMBench、MMMU 和 ScienceQA 等復雜的視覺問答(VQA)基準上,GPT-4o、Qwen2-VL 等視覺語言模型已經取得了顯著進展。然而,這些模型真的理解自然圖像嗎?近日,卡內基梅隆大學與華盛頓大學的研究團隊推出了 NaturalBench,這是一項發(fā)表于 NeurIPS'24 的以視覺為核心的 VQA 基準。它通過自然圖像上的簡單問題——即自然對抗樣本(Natural Adversarial Samples)——對視覺語言模型發(fā)起嚴峻挑戰(zhàn)。圖片
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章