通用異常檢測新曙光:華科大等揭秘GPT-4V的全方位異常檢測表現
異常檢測任務旨在識別明顯偏離正常數據分布的異常值,在工業檢驗、醫學診斷、視頻監控和欺詐檢測等多個領域都發揮了重要作用。傳統的異常檢測方法主要依賴于描述正常數據分布以進行正異常樣本的區分。然而,對于實際的應用而言,異常檢測也需要理解數據的高層語義,從而深入理解 “什么是異常”。要實現更準確且智能的異常檢測,我們需要關注以下關鍵步驟:1. 理解多樣數據類型和類別不同領域的數據集包含各種數據類型和類別,如圖像、視頻、點云、時間序列等。每種數據類型可能需要不同的異常檢測方法,每個物體類別可能對應不同的正常標準,因此深入理解數據的多樣性至關重要。2. 確定正常狀態標準一旦理解了數據的類型和類別,我們需要推斷正常狀態的標準。這需要高級數據語義信息的理解,以確保我們能夠正確識別正常數據的特征和模式。3. 評估數據的符合度最后,我們需要評估提供的數據是否符合已建立的正常數據分布。任何偏離這些數據分布的情況都可以被歸類為異常。最近,大型多模態模型(LMM)迅猛發展,其中 OpenAI 最近推出的 GPT-4V (ision) 表現最為出色,具有強大的多模態感知能力,在場景理解,圖片生成等多個任務中都取得了良好表現。我們認為,LMM 的出現為通用異常檢測的研究提供了新的范式和新的機會。為了評估 GPT-4V 在通用異常檢測中的性能,來自華中科技大學、密歇根大學和多倫多大學的研究者聯合進行了一項研究,在涉及 4 個數據模態,9 個異常檢測任務的 15 個異常檢測數據集上對 GPT-4V 進行了全面的測試。具體而言,測試的數據集包括圖像、點云、視頻、時序等模態,并涵蓋了工業圖像異常檢測 / 定位,醫療圖像異常檢測 / 定位,點云異常檢測,邏輯異常檢測,行人異常檢測,交通異常檢測,時序異常檢測等 9 個異常檢測任務。
行人檢測行人檢測是自動駕駛、安全監控和智能城市等領域的關鍵任務,它旨在識別圖像或視頻中的行人。我們研究了 GPT-4V 在行人檢測中的應用,測試了其對行人的識別能力和性能。我們展示了 GPT-4V 在行人檢測中的性能,包括檢測行人在不同背景下的能力。GPT-4V 通常能夠識別行人,但在復雜背景下可能會出現錯誤。與專門的行人檢測模型相比,性能可能相對較差,但它的優勢在于它能夠提供更多的語言解釋。


相關推薦
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。