ChatGPT多模態能力引發熱潮,但自家論文揭示GPT-4V仍存缺陷
撰文:Kyle Wiggers
來源:TechCrunch

圖片來源:由無界 AI工具生成
當 OpenAI 首次發布其旗艦文本生成人工智能模型 GPT-4 時,該公司吹捧了該模型的多模態性 -- 換句話說,它不僅能理解文本,還能理解圖像。OpenAI 表示,GPT-4 可以為相對復雜的圖片添加字幕,甚至進行解釋,例如從插入 iPhone 的圖片中識別出 Lightning Cable 適配器。
但自 GPT-4 于 3 月底發布以來,OpenAI 一直在保留該模型的圖像功能,據說是因為擔心濫用和隱私問題。直到最近,這些擔憂的確切性質仍然是個謎。而在本周初,OpenAI 發表了一篇技術論文,詳細介紹了其為減少 GPT-4 圖像分析工具中問題較多的方面所做的工作。
迄今為止,有視覺功能的 GPT-4(OpenAI 內部簡稱為“GPT-4V”)僅被 Be My Eyes(一款幫助視弱群體和盲人瀏覽周圍環境的應用程序)的數千名用戶定期使用。然而,據該論文稱,在過去幾個月里,OpenAI 也開始與“紅隊人員”合作,探究該模型是否存在意外行為的跡象。
在論文中,OpenAI 聲稱它已經采取了保障措施來防止 GPT-4V 被惡意使用,比如破解驗證碼、識別一個人或估計其年齡或種族,以及根據照片中不存在的信息得出結論。OpenAI 還表示,它已經努力抑制 GPT-4V 中更有害的偏見,尤其是那些與人的外貌、性別或種族有關的偏見。
但與所有人工智能模型一樣,保障措施也只能做到這么多。
論文顯示,GPT-4V 有時很難做出正確的推斷,例如,它會錯誤地將圖像中的兩串文字組合在一起,創造出一個虛構的術語。與基礎 GPT-4 一樣,GPT-4V 也容易產生幻覺,或以權威的口吻捏造事實。此外,它還會遺漏文字或字符、忽略數學符號,以及無法識別相當明顯的物體和地點設置。

因此,OpenAI 明確表示 GPT-4V 不能用于發現圖像中的危險物質或化學物質,也就不足為奇了。(本報記者甚至沒有想到會有這樣的用例,但顯然,OpenAI 對這一前景非常關注,因此公司認為有必要將其指出)。紅隊人員發現,雖然該模型偶爾能正確識別有毒食物(如毒蘑菇),但它也會在化學結構圖像中錯誤地識別出芬太尼、卡芬太尼和可卡因等物質。
當應用到醫學影像領域時,GPT-4V 的表現也不盡如人意,有時會對同一問題給出錯誤的回答,而它在之前的情況下卻回答正確。此外,GPT-4V 也沒有意識到一些標準做法,比如在查看成像掃描時,病人是面對著你的(這意味著圖像上的右側對應病人的左側),而這也會導致誤診。

OpenAI 警告說,在其他地方,GPT-4V 也不理解某些仇恨符號的細微差別 -- 例如,它不知道圣殿十字架(白人至上主義)在美國的現代含義。更奇怪的是,也許是其幻覺傾向的一種表現,人們觀察到 GPT-4V 在獲得某些仇恨人物或團體的圖片時,會創作歌曲或詩歌來進行贊美,即使這些人物或團體并沒有被明確點名。
GPT-4V 還會歧視某些性別和體型 -- 盡管只是在禁用 OpenAI 的產出保障措施時才會發生。OpenAI 寫道,在一次測試中,當被要求給一位身穿泳衣的女性提供建議時,GPT-4V 給出的答案幾乎完全與這位女性的體重和身體狀況的概念有關。我們猜想,如果圖片上的人是男性,情況就不會是這樣。

從論文的注意事項來看,GPT-4V 在很大程度上仍是一項正在進行中的工作 -- 距離 OpenAI 最初的設想還差幾步。在許多情況下,該公司不得不實施過于嚴格的保障措施,以防止模型傳播有毒或錯誤信息,或泄露個人隱私。
OpenAI 聲稱,它正在構建“緩解措施”和“流程”,以“安全”的方式擴展模型的能力,比如允許 GPT-4V 在不指名道姓的情況下描述人臉和人物。但這篇論文顯示,GPT-4V 并不是萬能的,OpenAI 還有很多工作要做。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。