異常檢測任務旨在識別明顯偏離正常數據分布的異常值,在工業檢驗、醫學診斷、視頻監控和欺詐檢測等多個領域都發揮了重要作用。傳統的異常檢測方法主要依賴于描述正常數據分布以進行正異常樣本的區分。然而,對于實際的應用而言,異常檢測也需要理解數據的高層語義,從而深入理解 “什么是異常”。
要實現更準確且智能的異常檢測,我們需要關注以下關鍵步驟:
1. 理解多樣數據類型和類別
不同領域的數據集包含各種數據類型和類別,如圖像、視頻、點云、時間序列等。每種數據類型可能需要不同的異常檢測方法,每個物體類別可能對應不同的正常標準,因此深入理解數據的多樣性至關重要。
2. 確定正常狀態標準
一旦理解了數據的類型和類別,我們需要推斷正常狀態的標準。這需要高級數據語義信息的理解,以確保我們能夠正確識別正常數據的特征和模式。
3. 評估數據的符合度
最后,我們需要評估提供的數據是否符合已建立的正常數據分布。任何偏離這些數據分布的情況都可以被歸類為異常。
最近,大型多模態模型(LMM)迅猛發展,其中 OpenAI 最近推出的 GPT-4V (ision) 表現最為出色,具有強大的多模態感知能力,在場景理解,圖片生成等多個任務中都取得了良好表現。我們認為,LMM 的出現為通用異常檢測的研究提供了新的范式和新的機會。
為了評估 GPT-4V 在通用異常檢測中的性能,來自華中科技大學、密歇根大學和多倫多大學的研究者聯合進行了一項研究,在涉及 4 個數據模態,9 個異常檢測任務的 15 個異常檢測數據集上對 GPT-4V 進行了全面的測試。具體而言,測試的數據集包括圖像、點云、視頻、時序等模態,并涵蓋了工業圖像異常檢測 / 定位,醫療圖像異常檢測 / 定位,點云異常檢測,邏輯異常檢測,行人異常檢測,交通異常檢測,時序異常檢測等 9 個異常檢測任務。
論文地址:https://arxiv.org/pdf/2311.02782.pdf
項目地址:https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection
觀察與分析
本文在多種模態和領域的異常檢測數據集上對 GPT4V 的性能進行了測試。我們認為,GPT4V 已經初步具備了多模態的通用異常檢測能力。具體而言,GPT-4V 不僅能夠有效理解多樣數據類型和類別,而且可以建模正常數據的空間分布,并評估測試數據的分布情況。
除此以外,GPT-4V 在異常檢測任務中還具有以下特點:
GPT-4V 能夠在零 / 單樣本下處理多模態、多領域的異常檢測任務
多模態異常檢測:GPT-4V 可有效處理多種模態數據的異常檢測任務。例如,它在識別圖像、點云、MRI、X-ray 等數據模態上均表現出了不俗的異常檢測能力。多模態異常檢測能力使 GPT-4V 能夠突破傳統單模態異常檢測器的限制,完成現實世界的復雜異常檢測任務。
多領域異常檢測:GPT-4V 在工業、醫療、行人、交通和時間序列異常檢測等多個領域表現優異。
零 / 單樣本下的異常檢測:GPT-4V 在零樣本及單樣本(即提供了一張正常的參考圖片)任務中均表現不俗。在沒有參考圖像的情況下,GPT-4V 可以有效地使用語言提示信息來檢測異常。當提供正常參考圖像時,GPT-4V 能夠更好的對齊文本格式的正常標準與正常的圖像內容,其異常檢測準確性進一步提高。
GPT-4V 可以理解異常檢測任務所需的全局和細粒度語義
全局語義理解能力:GPT-4V 對全局語義的理解能力表現在它能夠識別整體的異常模式或行為。例如,在交通異常檢測中,它可以分辨正常的交通流和不規則事件之間的區別,并且提供了關于異常檢出的詳細解釋。這種全局理解使其非常適合在開放世界中識別偏離正常分布的異常點。
細粒度語義理解能力:GPT-4V 對細粒度語義的理解能力在一些情況下表現出色,使得它不僅能夠檢測異常,還能夠精確地在復雜數據中定位異常。例如,在工業圖像異常檢測中,它可以準確定位細節,如傾斜的蠟燭燭芯、瓶口周圍的輕微劃痕。這種細粒度理解增強了它在復雜數據中檢測微小異常的能力,從而提高了其整體檢測。
GPT-4V 具備自動推理異常檢測的能力
GPT-4V 能夠根據復雜的正常標準自動推理、拆分子任務。例如,在邏輯異常檢測中,GPT-4V 能夠理解所給的正常圖像標準,并拆分為子任務,依次檢驗圖像內容是否滿足指定內容。這種內在的推理能力增強了其異常檢測結果的可解釋性,使其成為理解和解決通用異常檢測的有效工具。
GPT-4V 可以通過增加提示進一步增強異常檢測能力
評估結果顯示,提供更多文本和圖像信息對 GPT-4V 的異常檢測性能有積極影響。通過增加類別信息、人類專業知識、參考圖像,模型獲得了更多的上下文信息,異常檢測性能也得到顯著提升。該特點允許用戶通過提供相關的補充信息來微調和增強模型的性能。
GPT-4V 在實際應用中可能受到限制,但仍具有潛力
本報告發現 GPT-4V 在實際應用中仍面臨一些挑戰。例如,GPT-4V 可能在處理工業應用中的復雜場景時面臨困難,導致其出現錯誤檢測。醫療領域的倫理約束也使其在判斷腫瘤等異常情況時趨于保守。但我們相信它在各種異常檢測任務中仍然具有潛力。為了有效解決這些挑戰,可能需要進一步增強、專門的精細調整或補充技術。總結而言,GPT-4V 在通用異常檢測中具有明顯潛力,有望開啟異常檢測任務的高層次感知時代。
應用場景展示
工業圖像異常檢測
工業圖像異常檢測旨在維護產品質量,是制造過程的重要環節。近年來,許多方法在此領域蓬勃發展,其中一些方法著眼于開發適用于任意產品類別的統一模型。本研究探討了 GPT-4V 在工業圖像異常檢測中的應用,包括對不同類型的信息進行測試,以及展示其性能和局限性。
我們從工業圖像中選擇了幾個示例,如瓶子和蠟燭的圖像。即使只提供簡單的語言提示,GPT-4V 能夠有效地識別這些圖像中的異常,展示了其能力和多樣性。此外,GPT-4V 不僅能夠檢測期望的異常,還能夠識別微觀結構異常。在復雜情況下,如電路板中的異常檢測,GPT-4V 能夠識別圖像中的細節,但也存在一定的局限性。總的來說,GPT-4V 在圖像上下文理解和類別特定異常理解方面表現出色。
工業圖像異常定位
與工業圖像異常檢測不同,工業圖像異常定位旨在精確識別異常的位置。為了實現這一目標,我們采用了與 SoM(Set-of-mark)類似的方法,使用圖像 - 掩模對來提示 GPT-4V。我們研究了 GPT-4V 在不同場景下的表現,展示了其在細粒度異常定位方面的能力和局限性。
我們展示了 GPT-4V 在工業圖像異常定位中的性能,包括定位彎曲的電線、堅果上的空洞以及識別電路板異常。GPT-4V 在一些情況下能夠準確識別異常位置,例如能夠有效定位堅果中的空洞,并且由于結合了視覺提示技術,GPT-4V 將異常定位問題轉化為了對掩膜的分類問題,有效降低了問題復雜度,且提升了定位精度。因此,結合視覺提示技術和 GPT-4V 可有效解決工業圖像異常定位問題。
點云異常檢測
點云異常檢測在工業領域具有重要作用。CPMF 提出了一種新方法,將點云轉化為深度圖像,以利用圖像基礎模型來提高點云異常檢測的性能。我們借助 CPMF,將點云轉為深度圖像,從而使得 GPT-4V 可處理點云異常檢測任務。
我們展示了 GPT-4V 在點云異常檢測中的性能,包括識別袋圈中的小突起、檢測繩子上的異常以及查找工件中的異常。GPT-4V 能夠有效地識別這些異常,但在某些情況下也存在局限性,特別是在渲染質量較低的情況下。總的來說,GPT-4V 在點云異常檢測中表現出了潛力。
邏輯異常檢測
邏輯異常檢測任務由 MVTec LOCO 數據集提出。該任務通常出現在裝配過程中,需要識別各個組件是否正確組合。現有的邏輯異常檢測方法通常依賴于視覺全局 - 局部對應關系,但本質上并沒有真正理解圖像內容。我們研究了 GPT-4V 在邏輯異常檢測中的應用,探討了其對圖像內容的理解能力。
我們展示了 GPT-4V 在邏輯異常檢測中的性能,包括識別復雜的邏輯規則、檢測邏輯異常并提供詳細的解釋。盡管 GPT-4V 在大多數情況下能夠準確識別邏輯異常,但在某些復雜情況下存在一定的局限性,尤其是對于細節問題。不過,結合多輪對話和特定語言提示有望顯著改善 GPT-4V 在這些情況下的性能。
醫學圖像異常檢測
醫學圖像異常檢測是醫學影像領域的關鍵任務,旨在識別不符合預期數據分布的異常值。我們研究了 GPT-4V 在醫學圖像異常檢測中的應用,包括不同疾病和成像模式的醫學圖像。我們測試了 GPT-4V 的泛化能力,揭示了其在醫學圖像異常檢測中的性能和局限性。
我們展示了 GPT-4V 在醫學圖像異常檢測中的性能,包括識別不同疾病和成像模式的異常圖像。即使只提供簡單的語言提示,GPT-4V 能夠有效地識別異常,并提供詳細的解釋。此外,引入更多信息,如疾病信息和專業知識,可以進一步提高 GPT-4V 的性能。然而,GPT-4V 在某些情況下可能會產生錯誤的異常檢測,因此仍需要醫生的最終判斷。
醫學圖像異常定位
在檢測到醫學異常后,需要進一步精確定位醫學圖像中存在的異常,例如病灶等。對醫學圖像異常的準確的定位可有效幫助臨床醫生理解病理的程度和性質。然而,在現實世界的醫學圖像異常定位任務中使用 GPT-4V 直接預測異常掩膜十分困難。受到 SoM 的啟發,我們希望測試 GPT-4V 模型在視覺提示下的異常定位能力。
結合 SoM,我們標定了醫療圖像中可能存在的異常位置。在圖像中的視覺提示指導下,GPT-4V 傾向于學習和描述標記周圍的區域。對于容易識別和定位的案例,GPT-4V 可以清楚地區分異常區域和背景。但在一個人工合成異常的案例中,由于感興趣區域與背景具有相似的紋理和形狀,GPT4V 的判斷出現了偏差。這表明該模型在對抗攻擊和復雜背景下仍需要增強其檢測和定位能力。
交通檢測
交通檢測是城市交通管理和自動駕駛領域的關鍵任務,它旨在監測交通情況,檢測交通違規行為和危險情況。我們研究了 GPT-4V 在交通檢測中的應用,包括車輛識別、交通標志識別和交通違規檢測。我們測試了 GPT-4V 在不同場景下的性能,展示了其潛力和局限性。
我們展示了 GPT-4V 在交通檢測中的性能,包括識別不同類型的車輛、檢測各種交通標志和識別交通違規行為。GPT-4V 能夠有效地處理這些任務,尤其是在規范場景下。然而,在復雜交通環境中,性能可能會下降,因為它需要理解并解釋復雜的情境。
行人檢測
行人檢測是自動駕駛、安全監控和智能城市等領域的關鍵任務,它旨在識別圖像或視頻中的行人。我們研究了 GPT-4V 在行人檢測中的應用,測試了其對行人的識別能力和性能。
我們展示了 GPT-4V 在行人檢測中的性能,包括檢測行人在不同背景下的能力。GPT-4V 通常能夠識別行人,但在復雜背景下可能會出現錯誤。與專門的行人檢測模型相比,性能可能相對較差,但它的優勢在于它能夠提供更多的語言解釋。
時序檢測
時序檢測是一種涉及到時間序列數據的異常檢測任務,例如傳感器數據、金融時間序列等。我們研究了 GPT-4V 在時序檢測中的應用,測試了其在分析和檢測時間序列異常方面的能力。
我們展示了 GPT-4V 在時序檢測中的性能,包括檢測傳感器數據中的異常、金融交易數據中的異常等。GPT-4V 在分析時間序列數據方面表現出色,能夠識別不同類型的異常情況。然而,需要注意的是,時序檢測通常需要更多的領域專業知識,而 GPT-4V 在這些情況下可能需要結合專家的建議。
結論
GPT-4V 在工業圖像異常檢測、工業圖像異常定位、點云異常檢測、邏輯異常檢測、醫學圖像異常檢測、交通檢測、行人檢測和時序檢測等領域都展示出了出色的潛力。它能夠理解多模態數據,對圖像內容進行有效理解,并在很多情況下都能準確檢測并解釋異常。然而,在復雜場景中,GPT-4V 的異常檢測能力仍然存在一定的局限性。綜合來看,GPT-4V 為通用異常檢測提供了全新的研究范式,但其實際應用仍需要進一步的研究和改進。
-
數據集
+關注
關注
4文章
1209瀏覽量
24777 -
GPT
+關注
關注
0文章
357瀏覽量
15461 -
OpenAI
+關注
關注
9文章
1116瀏覽量
6625
原文標題:GPT-4V在異常檢測上有多少強?華科大等最新測評來了!
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論