《Neurocomputing》:SCOPE-diff: A spatiotemporal comprehensive perception diffusion framework for video anomaly detection
作者:蔡佳蒂 | 趙旭迅 | 劉艷 | 鐘婷 | 周帆
中國電子科技大學信息與軟件工程學院,成都,610054,四川,中國
摘要
現有的基于擴散的視頻異常檢測方法主要關注多模態生成或多樣性建模,但在完全感知時間和空間維度上的異常線索方面往往存在不足。在這項工作中,我們致力于確保廣泛的建模覆蓋范圍,同時明確增強對時間動態和空間粒度的感知。為此,我們提出了SCOPE-Diff,一個時空綜合感知擴散框架,它在保持擴散模型生成優勢的同時,系統地增強了兩個維度上的異常檢測能力。具體來說,我們引入了雙粒度全時感知范式(DOPP),以實現雙向時間推理和多密度時間建模;以及全局-局部協同感知模塊(GLSPM),以共同捕捉整體身體結構和細粒度的關節級偏差。通過將這些組件集成到一個統一的擴散框架中,SCOPE-Diff實現了更完整和深入的時空異常感知。在四個基準數據集上的廣泛實驗證明了其有效性和魯棒性。
引言
視頻異常檢測(VAD)是計算機視覺中的一個關鍵任務,旨在識別偏離正常模式的事件或行為[30]、[39]、[45]、[51]。計算能力的快速進步顯著推動了基于深度學習的方法在這一任務中的發展。VAD在公共安全領域具有廣泛的應用,能夠對潛在威脅(如網絡入侵和暴力事件)進行早期預警,從而提高安全性[36]、[37]、[46]。
由于現實世界場景中異常樣本的稀缺性,VAD通常被構建為單類分類(OCC)任務,模型僅基于正常數據進行訓練以學習規律的時空模式。根據異常定位的粒度,VAD方法可以大致分為視頻級、片段級和幀級范式。幀級VAD為單個幀分配異常分數,能夠實現細粒度的時間定位,因此特別適用于監控和早期預警應用;因此,本研究重點關注幀級檢測,F有的幀級VAD方法主要遵循兩種范式:基于分類的方法和基于重建的方法。然而,常見的重建模型(如自編碼器[8])往往能夠很好地重建正常和異常幀,導致異常區分能力有限,這促使人們轉向預測建模。
因此,最近的研究越來越多地采用預測和基于擴散的框架來建模正常運動模式。盡管這些方法顯著提高了建模覆蓋范圍和生成靈活性,但它們在異常感知方面仍面臨根本性限制。
具體來說,現有方法通常面臨以下挑戰:
1)有限的時空覆蓋范圍:現有方法通常只建模單一模態或有限的時空線索[20]、[33],導致對多樣化的運動模式和空間依賴性的覆蓋不足。因此,它們難以全面表示現實世界場景中遇到的復雜和異構的時空動態。
2)有限的時間推理:大多數現有方法依賴于單向時間預測,僅關注正向動態而忽略反向推理[10]、[53],而未來的觀測可以為解釋過去的運動提供有價值的上下文。此外,它們通常假設時間結構是均勻和連續的,忽略了對于準確異常建模至關重要的時間密度變化。
3)有限的空間粒度:大多數現有方法[10]、[21]、[32]主要關注全局異常感知,將人體視為一個整體實體,而沒有明確建模細粒度的局部結構(例如身體部位或關節)。然而,這些局部空間線索通常包含精確識別微妙和局部異常的關鍵信息。不同模型在這三個方面的關注點在表1中進行了總結。
對于第一個挑戰,現有方法專注于單一的時空模態,限制了它們捕捉多樣化正常行為的能力。最近的研究[10]、[22]采用了擴散模型來進行未來幀的預測。受其啟發,我們采用了一個基于骨架的擴散框架來更有效地建模人體運動語義。
為了解決第二個挑戰,我們提出了一個雙粒度全時感知范式(DOPP),它能夠在兩個時間方向上進行互補的生成。與傳統的單向預測不同,我們的基于擴散的框架對過去和未來的序列進行相互去噪,促進了雙向時間信息的交換。此外,在訓練過程中,我們在連續幀提取的基礎上進一步引入了跨間隔幀采樣策略,增強了模型對時間密度和尺度的感知。
為了解決第三個挑戰,我們提出了一個全局-局部協同感知模塊(GLSPM),以明確增強模型對局部關節模式的敏感性。在獲得視頻幀的潛在表示后,完整的人體姿態被層次化地劃分為解剖區域,包括頭部、四肢和軀干。然后在全局姿態和局部關節級別計算異常分數。通過這種雙粒度設計,GLSPM共同建模了整體身體結構和細粒度的關節偏差,實現了更全面的空間異常感知。
基于以上內容,我們提出了一個全面的異常檢測框架。
所提出方法的概述如圖1所示。我們的主要貢獻總結如下:
•我們提出了一個時空綜合感知擴散框架(SCOPE-Diff),它從全局和局部角度聯合且解耦地感知視頻序列的關鍵特征,從而提高了檢測性能。
•我們提出了一個雙粒度全時感知范式(DOPP),它在擴散框架內進行雙向去噪,以實現過去和未來序列之間的信息交換。
•我們提出了一個全局-局部協同感知模塊(GLSPM),它共同建模了整體身體結構和細粒度的關節交互,從而增強了空間表示并提高了模型對局部異常的敏感性。
•在多個基準數據集上的廣泛實驗證明了SCOPE-Diff在視頻異常檢測任務中的有效性和準確性。
本文的其余部分組織如下。第2節回顧了VAD和擴散模型的相關工作。第3節詳細介紹了我們提出的方法。第4節提出了廣泛的定量和定性實驗來驗證我們方法的有效性。第5節進一步討論了我們的方法與幾種最先進方法之間的差異。第6節分析了SCOPE-Diff的局限性和失敗案例。最后,第7節總結了本文的結論和未來研究的潛在方向。本文中使用的縮寫列表在表2(圖2)中進行了總結。
部分摘錄
視頻異常檢測
視頻異常檢測(VAD)旨在識別偏離正常或預期模式的事件,由于其在監控和公共安全領域的廣泛應用[30]、[39]、[45]、[51],因此受到了越來越多的關注。早期的VAD方法通常遵循兩階段范式,首先基于領域專業知識提取手工制作的特征,然后使用統計或基于規則的模型進行異常判斷。然而,這種手工制作的表示往往缺乏魯棒性
方法論
我們提出了一個基于擴散的VAD框架SCOPE-Diff,它充分利用時空信息來準確區分正常和異常事件。第3.1節介紹了去噪擴散概率模型(DDPMs)的基本概念。第3.2節詳細介紹了我們方法的訓練過程,包括提出的DOPP和GLSPM模塊。第3.3節描述了推理階段的采樣過程。
數據集
在本文中,我們使用了UBnormal數據集[4],該數據集使用Cinema4D軟件從2D自然圖像中合成了29個場景。每個場景包含19個視頻片段,其中包含正常和異常事件。遵循開放集原則,數據集被劃分為訓練集、驗證集和測試集,這些集合之間的異常類型是互斥的。根據單類分類(OCC)設置,訓練集僅包含正常行為樣本。此外,我們
與基于擴散的方法的比較
如表4所示,最近的基于擴散的方法通過利用正常運動模式的生成建模,在基于骨架的視頻異常檢測方面展示了有希望的結果。這種范式特別適合基于骨架的異常檢測,它自然遵循單類或少量樣本設置,其中異常樣本稀缺,建模正常運動模式至關重要。
MoCoDAD將異常檢測構建為未來姿態生成任務,并進行測量
推理效率:
SCOPE-Diff依賴于具有雙向時間預測的迭代擴散過程,這比基于單次預測的方法具有更高的推理成本。這種開銷主要來自多步去噪和使用重疊的時間窗口,其中每個幀被多次評估。在這種設置下,處理HR-Avenue測試集(超過15,000幀)在單個NVIDIA RTX 4090 GPU上大約需要16分鐘。雖然不是實時的,但SCOPE-Diff的目標是
結論和未來工作
本文提出了SCOPE-Diff,一個用于基于骨架的視頻異常檢測的時空擴散框架。與之前依賴于單向時間預測的重建或基于軌跡的方法不同,SCOPE-Diff采用了一種綜合感知范式來共同建模時間動態和空間運動模式。
具體來說,提出的雙粒度全時感知范式(DOPP)能夠在多個時間密度下實現雙向時間推理
CRediT作者貢獻聲明
蔡佳蒂:撰寫 – 審稿與編輯,撰寫 – 原始草稿,方法論,概念化。趙旭迅:驗證,方法論,調查。劉艷:可視化,驗證,數據 curation。鐘婷:監督,資金獲取,數據 curation。周帆:監督,資源,資金獲取。
利益沖突聲明
作者聲明他們沒有已知的競爭財務利益或個人關系可能影響本文報告的工作。
蔡佳蒂(第一作者)目前是中國電子科技大學(UESTC)的軟件工程博士候選人。他的研究興趣包括計算機視覺、擴散模型和醫療AI。