亚洲专区久久,国产熟女精品视频,少妇无码

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

基于注意力驅動的偽標簽自訓練方法，用于弱監督視頻異常檢測

《Pattern Recognition》：Attention-Driven Pseudo-Label Self-Training for Weakly Supervised Video Anomaly Detection

【字體：大中小】 時間：2026年03月03日 來源：Pattern Recognition 7.6

編輯推薦：

　　針對弱監督視頻異常檢測中偽標簽生成與自訓練的局限性，提出同步雙分支框架，通過自注意力與跨注意力分離正常/異常片段，結合均值-方差去噪策略生成高質量偽標簽，并設計多尺度時間特征交互模塊增強片段區分度，實現偽標簽生成與模型訓練的協同優化。

楊志偉|劉靜|龐冠松|吳鵬|吳朝陽

中國廣東省廣州市510555，廣州工業大學，西安電子科技大學

摘要

近期，基于生成偽標簽的兩階段自訓練方法在弱監督視頻異常檢測（WSVAD）領域取得了顯著進展。然而，生成的偽標簽往往存在不完整和噪聲問題，這限制了性能的提升。為了實現更好的偽標簽生成和自訓練效果，我們受到人類注意力機制的啟發，提出了一種新穎的雙分支框架，用于同步進行偽標簽生成和自訓練。第一個分支引入了基于自注意力機制和交叉注意力機制的視頻片段分離與融合（VSSF）模塊。隨后，視頻分類模塊對融合后的視頻特征表示進行分類，從而進一步增強了異常片段與正常片段之間的區分度。在此基礎上，我們設計了一個基于注意力機制的偽標簽生成（PLG）模塊，并配備了去噪策略。該模塊在緊湊性-分離損失和分布差異損失的指導下，從分離過程中推斷出準確且全面的片段級偽標簽。在第二個分支中，我們設計了一個多尺度時間特征交互學習模塊，以捕捉視頻片段之間的豐富時間依賴關系，從而提高它們的區分能力。然后，第二個分支同步接收來自第一個分支的最新偽標簽，用于片段分類器的學習，從而減少噪聲片段的影響，提高自訓練性能。在三個基準數據集上的廣泛實驗表明，我們的方法始終優于現有的兩階段和多階段自訓練框架，并且與最近的一階段方法相比具有競爭力或更優的性能，突顯了我們提出框架的有效性。我們的代碼可在以下鏈接獲取：https://github.com/Beyond-Zw/ADPLG-VAD

引言

從視頻監控數據中自動檢測異常事件對于確保公共安全和工業安全至關重要。因此，視頻異常檢測（VAD）已成為計算機視覺領域的一個熱門研究課題。VAD的主要目的是自動識別視頻中偏離正常模式的事件或行為。

迄今為止，已經提出了許多方法[1]、[2]、[3]來解決VAD任務。其中，弱監督視頻異常檢測（WSVAD）[4]、[5]、[6]因其僅依賴于視頻級標簽而受到越來越多的關注，從而避免了繁瑣的幀級注釋需求。例如，Sultani等人[4]首次提出了一個用于WSVAD的深度多實例學習（MIL）排名模型。此后，基于此模型開發了許多方法[7]、[8]，并且性能不斷提高。然而，由于缺乏片段級標簽，基于MIL的框架只能關注異常最明顯的少數幾個片段，可能導致異常評分不準確和不完整。

為了解決這些問題，引入了基于生成偽標簽進行自訓練的兩階段方法[9]、[10]、[11]。這些方法通常在第一階段使用分類器或MIL框架生成偽標簽，然后在第二階段使用這些偽標簽訓練片段分類器。盡管當前的兩階段自訓練方法表現出有希望的性能，但仍存在兩個主要限制，阻礙了進一步的發展。首先，最初生成的偽標簽不完整且噪聲水平較高。盡管最先進的兩階段方法CU-Net[10]在第一階段使用了多個分類器來檢測多個異常片段，但這仍然無法準確覆蓋所有可能的異常片段，因為分類器的數量是固定的。其次，偽標簽的去噪不夠徹底。CU-Net[10]將偽標簽生成和片段分類器學習分為兩個獨立階段，偽標簽去噪主要依賴于第二階段的采樣選擇。這并沒有完全解決偽標簽噪聲問題，且方法的性能容易受到第一階段結果的影響。這些兩階段方法將偽標簽生成和自訓練視為兩個獨立且分離的階段，限制了它們逐步優化偽標簽和提高整體訓練性能的能力。相比之下，實現兩個階段之間的協作機制，即同步偽標簽生成與自訓練，代表了一個有前景但尚未充分探索的范式，有望克服這些限制。

在這項工作中，我們提出了一種新穎的雙分支框架，用于同步偽標簽生成和自訓練。與現有的先生成偽標簽再固定用于后續訓練的兩階段流程不同，我們的框架執行同步的偽標簽生成和自訓練。在兩階段方案中，生成的標簽中的早期噪聲會不斷累積，導致錯誤傳播和誤報過擬合。相比之下，同步機制使偽標簽能夠隨著模型信度的提高而演變，從而在每次迭代中糾正噪聲預測，減少誤差累積。為了進一步穩定這一過程，我們提出了一種基于均值-方差統計的去噪策略，該策略能夠自適應地過濾不可靠的片段，成為我們框架的關鍵去噪機制。

為了開發基于這種同步雙分支框架中生成的偽標簽的自訓練異常檢測方法的潛力，我們需要關注的關鍵問題是：如何生成完整且無噪聲的偽標簽？顯然，未裁剪的異常視頻既包含異常片段也包含正常片段，而正常視頻完全由正常片段組成，可以直接獲得無噪聲的片段級標簽。因此，我們的主要目標是盡可能準確地識別異常視頻中的異常片段和正常片段，然后為它們分配二進制標簽。

基于人類注意力機制，我們可以有意識地分別關注未裁剪異常視頻中的異常片段和正常片段，以便將它們分離出來，如圖1所示。受此過程的啟發，我們設計了一個用于同步偽標簽生成和自訓練的注意力驅動雙分支框架，如圖2所示。第一個分支通過細粒度的視頻分類間接推斷偽標簽，將異常視頻中的正常片段和異常片段分離出來。第二個分支在第一個分支生成的偽標簽的監督下，同步進行視頻片段分類的自訓練。具體來說，在第一個分支中，我們提出了一種基于自注意力機制和交叉注意力機制的視頻片段分離與融合（VSSF）模塊。隨后，視頻分類模塊對融合后的視頻特征表示進行分類，進一步增強異常片段與正常片段之間的區分度。在此基礎上，我們設計了一個基于注意力機制的偽標簽生成（PLG）模塊，該模塊采用均值-方差統計的去噪策略從視頻片段分離過程中生成高質量的偽標簽。為了確保注意力權重與真實的片段標簽分布更好地對齊，我們引入了兩個損失函數：緊湊性-分離（CS）損失和分布差異（DD）損失。這些損失函數的組合指導VSSF模塊有效分離異常片段和正常片段，從而生成更完整、噪聲更少的偽標簽。

在第二個分支中，我們利用第一個分支生成的片段偽標簽來訓練片段分類器。由于視頻包含豐富且復雜的時間關系，這些關系對于視頻片段分類至關重要。因此，我們設計了一個多尺度時間特征交互學習（MS-TFIL）模塊，以學習片段之間的更全面的時間依賴關系，進一步提高片段特征的區分能力。然后，第二個分支同步接收來自第一個分支的最新偽標簽，以指導片段分類器的訓練，從而減少噪聲片段的影響，提高自訓練性能。廣泛的實驗表明，我們的框架在三個基準數據集上表現出一致且具有競爭力的性能，明顯優于之前的兩階段和多階段自訓練方法，并且在XD-Violence數據集上的性能可與最佳的一階段方法相媲美。

總結來說，我們的貢獻如下：

•

VSSF模塊（表5 ①）：我們提出了一種基于自注意力和交叉注意力的VSSF模塊，有效分離異常片段和正常片段，為可靠的偽標簽推斷奠定基礎。

•

PLG去噪（圖4）（b）：我們設計了一個基于注意力機制的PLG模塊，并配備了基于均值-方差的去噪策略，顯著提高了偽標簽的準確性和完整性。

•

MS-TFIL模塊（表5 ② ③）：我們開發了一個MS-TFIL模塊，以捕捉片段之間的多尺度時間依賴關系，提高片段區分能力。

•

同步訓練（表5 ④）：我們提出了一種雙分支框架，用于同步偽標簽生成和自訓練，有效減少累積噪聲傳播。

本文的其余部分組織如下：第2節回顧了VAD的相關工作。第3節介紹了我們的VAD方法。第4節給出了在基準數據集上的實驗結果。最后，第5節給出了我們的結論。

方法

在本節中，我們介紹了所提出的方法，詳細介紹了整體架構和各個組件及其執行過程。

數據集和評估指標

我們在三個基準數據集UCF-Crime [4]、XD-Violence [34] 和 ShanghaiTech [35] 上進行實驗，以評估該方法的性能。

UCF-Crime 數據集總時長為128小時，包含1,900個未裁剪的視頻，其中1,610個是帶有視頻級標簽的訓練視頻，290個是帶有幀級標簽的測試視頻。UCF-Crime涵蓋了13種真實的異常事件，包括虐待、逮捕、縱火、襲擊、事故、入室盜竊、爆炸、斗毆、搶劫、槍擊等。

結論

在這項工作中，我們專注于提高兩階段WSVAD范式中偽標簽生成的質量和自訓練性能。為此，我們提出了一種具有同步偽標簽生成和自訓練的新型雙分支WSVAD框架。在第一個分支中，我們引入了VSSF模塊，該模塊利用人類注意力機制有效分離視頻中的異常片段和正常片段。結合更細粒度的視頻分類任務，

CRediT作者貢獻聲明

楊志偉：撰寫 – 審稿與編輯，撰寫 – 原稿，可視化，驗證，軟件，資源，項目管理，方法論，調查，形式分析，數據管理，概念化。劉靜：撰寫 – 審稿與編輯，撰寫 – 原稿，驗證，監督，資源獲取，項目管理，方法論，概念化。龐冠松：撰寫 – 審稿與編輯，撰寫 – 原稿，軟件，方法論，

CRediT作者貢獻聲明

楊志偉：撰寫 – 審稿與編輯，撰寫 – 原稿，可視化，驗證，軟件，方法論，調查，形式分析，數據管理，概念化。劉靜：撰寫 – 審稿與編輯，撰寫 – 原稿，監督，資源獲取，項目管理，方法論，概念化。龐冠松：撰寫 – 審稿與編輯，撰寫 – 原稿，驗證，方法論，形式分析，概念化。吳鵬：

利益沖突聲明

作者聲明他們沒有已知的可能會影響本文報告工作的財務利益或個人關系。

致謝

本工作部分得到了中國國家自然科學基金（項目編號62471371）的支持，部分得到了廣東省高水平創新研究機構項目（項目編號2021B0909050008）的支持，以及廣州市關鍵研發計劃（項目編號202206030003）的支持。

楊志偉于2019年在中國鄭州中原工業大學獲得通信工程學士學位，目前正在中國廣州工業大學攻讀博士學位。他的當前研究興趣包括計算機視覺、深度學習、視頻理解和視頻異常檢測。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號