<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        SCAFTrack:用于對象跟蹤的跨層空間-通道協同注意力融合技術

        《Image and Vision Computing》:SCAFTrack: Cross-layer spatial-channel collaborative attention fusion for object tracking

        【字體: 時間:2026年02月27日 來源:Image and Vision Computing 4.2

        編輯推薦:

          目標跟蹤中基于跨層空間-通道協作注意力融合的特征傳播機制有效整合ViT多層級特征,通過跨層特征傳播和SCAF模塊自適應融合淺層細節與深層語義,提升復雜場景下的跟蹤魯棒性和精度。

          
        盧玉超|高云|孫耀偉|王濤
        云南大學信息科學與工程學院,昆明,650504,中國

        摘要

        由主干網絡提取的特征是視覺目標跟蹤任務中目標定位的基礎。然而,現有的單流Transformer跟蹤器通常僅使用原始Vision Transformer的最后一層輸出特征來進行目標定位。Vision Transformer網絡中豐富的特征表示尚未被充分利用來提高跟蹤的魯棒性。為了解決這個問題,我們提出了SCAFTrack,這是一種基于跨層空間-通道協作注意力融合的目標跟蹤方法。該方法采用跨層特征傳播機制,將目標顯著信息從淺層中間特征傳輸到深層編碼器,并與深層特征融合。它充分利用了多層特征的互補全局語義,增強了深層特征對目標的表示能力。在特征傳播過程中,我們設計了一個空間-通道協作注意力融合模塊,該模塊協調空間和通道注意力機制,以最小的計算成本提取有效的淺層特征信息并將其與深層特征融合。在GOT-10k、TrackingNet和LaSOT等六個公開基準數據集上的廣泛實驗表明,我們的方法有效地從ViT主干網絡的多層特征中聚合了有益信息,同時在各種具有挑戰性的場景中顯著提高了跟蹤準確性和魯棒性。

        引言

        視覺目標跟蹤(VOT)[1] [2]是計算機視覺領域的一項基本任務,其目標是在給定目標對象在第一幀中的初始狀態的情況下,預測后續視頻幀中的目標對象的位置和狀態。近年來,由于在計算機視覺中的廣泛應用,包括視頻監控、自動駕駛、交通監控和人機交互[3] [4],單目標跟蹤算法獲得了顯著的關注和大量的研究興趣。盡管提出了許多目標跟蹤算法,但由于外觀和姿態變化、遮擋、運動模糊、背景雜亂、干擾物體和變形等各種因素,魯棒跟蹤仍然具有挑戰性。
        近年來,由于深度學習的發展,目標跟蹤任務取得了顯著進展。由主干網絡提取的特征對于目標定位至關重要,并直接影響跟蹤的準確性和魯棒性。早期的主流跟蹤方法大多使用卷積神經網絡(CNN)[5]作為特征提取模塊。典型的基于孿生網絡的CNN跟蹤方法[6] [7] [8] [9]使用共享參數的CNN從目標模板和搜索區域提取特征,隨后的相關性建模實現了高效的操作和有競爭力的準確性。然而,CNN主干的局部感受野機制限制了其建模長距離依賴性和全局上下文信息的能力[10]。這在包括遮擋、背景雜亂和干擾干擾在內的具有挑戰性的條件下導致性能顯著下降。由于Transformer[11]在自然語言處理(NLP)中捕獲長距離依賴性和建模全局上下文的強大能力,一些研究開始將其納入跟蹤任務中進行相關性建模,從而產生了多個CNN-Transformer跟蹤器[12] [13] [14] [15]。這些跟蹤器通過CNN提取低級特征,并使用Transformer建模高級語義關系,在一定程度上結合了兩種方法的優點。然而,這些方法并未完全克服CNN在局部建模方面的局限性[16]。為了解決這個問題,提出了單流Transformer跟蹤框架[17],該框架使用Vision Transformer(ViT)[18]網絡進行特征提取。該框架統一了從目標模板和搜索圖像中提取和融合特征的過程,使得在單個網絡內進行集成處理成為可能。這些跟蹤器[19] [20] [21] [22] [23]充分利用了注意力機制來建模圖像中的長距離依賴性,不僅有效地增強了目標特征的區分能力,還在準確性和效率之間取得了更好的平衡。基于ViT的單流Transformer跟蹤框架已成為當前目標跟蹤研究的主流方法。
        單流Transformer跟蹤器的顯著優勢在于ViT主干網絡的特征提取能力,其基本架構如圖1(a)所示。大多數單流跟蹤方法遵循這一架構,僅依賴ViT的最后一層特征進行跟蹤定位。這引發了以下問題:ViT的最后一層特征是否總是最優的?為了解決這個問題,我們之前進行了實驗,探索了ViT主干網絡不同層特征對目標跟蹤的有效性。圖2(a)顯示了使用ViT主干網絡第1到12層的輸出特征進行目標定位的性能比較。我們發現,隨著ViT主干網絡深度的增加,跟蹤性能指標也逐步提高,表明最后幾層的特征對目標定位更有益。此外,最后幾層的跟蹤性能指標通常相似。那么,這些深層特征是否對目標表現出相同的注意力分布呢?我們進一步檢查了ViT主干網絡最后幾層對目標的注意力圖。如圖2(b)所示,盡管最后幾層的特征實現了相當的跟蹤性能,但它們對目標的注意力并不完全一致。這表明ViT最后一層的特征從單一角度關注目標的語義信息,而最后幾層的特征可以從不同角度關注目標的全局語義信息。這使我們假設:與僅依賴最后一層特征進行目標定位的方法相比,聚合ViT最后幾層的區分特征是否可以提高跟蹤性能?
        HIPTrack_MLS [24]最初探索了如何利用ViT主干網絡所有層的特征。如圖1(b)所示,該方法通過MLP模塊聚合每層的特征,并與最后一層的特征進行加權融合。它有效地結合了淺層詳細信息和深層全局語義信息,從而在一定程度上增強了目標特征的區分能力。這種方法也驗證了通過多層特征聚合來提高跟蹤性能的可行性。然而,圖2(a)中的曲線表明,淺層特征在定位方面的表現不佳,對跟蹤有益的信息主要集中在最后幾層的特征中。聚合所有層的特征可能會引入干擾,基于MLP的聚合難以有效地從每一層提取目標顯著信息。
        受到實驗觀察和文獻[24]的啟發,為了有效地聚合ViT主干最后幾層對跟蹤有益的信息,本文提出了一種基于跨層空間-通道協作注意力融合的目標跟蹤方法,其結構如圖1(c)所示。具體來說,本文設計了一種跨層特征傳播機制,將淺層中間特征信息引入更深的跨層編碼器中與深層特征融合。這種方法充分利用了多層特征的互補全局語義,增強了深層特征對目標顯著信息的關注。為了有效地利用多層特征中的跟蹤有益信息,我們還設計了一個空間-通道協作注意力融合模塊(SCAF)。該模塊采用空間-通道協同注意力機制,以低計算開銷實現淺層特征和深層特征的自適應融合。
        本文的主要貢獻如下:
        (1) 我們提出了一種基于跨層空間-通道協作注意力融合的目標跟蹤方法。它通過跨層傳播機制將淺層特征信息傳輸到深層編碼器進行特征融合。這種方法聚合了ViT主干最后幾層的特征信息,為目標定位提供了更豐富的多視角語義聚合。
        (2) 我們設計了一個跨層空間-通道協作注意力融合模塊(SCAF)。通過空間-通道協同注意力機制,該模塊以低計算成本從多層特征中提取和融合目標顯著信息,實現了多樣化語義信息的有效聚合。
        (3) 我們的方法已在六個主流目標跟蹤基準數據集上進行了廣泛評估,包括GOT-10k [25]、TrackingNet [26]、LaSOT [27]、UAV123 [28]、NFS [29]和TNL2K [30]。實驗結果表明,與僅使用最后一層的單層語義特征進行目標定位相比,我們的方法有效地從ViT的最后幾層聚合了對跟蹤有益的信息,同時在最小的計算成本下顯著提高了單流跟蹤器的魯棒性。

        部分摘錄

        單流Transformer跟蹤器

        由于其卓越的長距離依賴性建模能力,Vision Transformer在各種計算機視覺任務中表現出色,成為視覺建模的新興范式。對于視覺目標跟蹤,跟蹤算法已經從傳統的基于CNN的跟蹤器發展到完全基于Transformer的跟蹤器。早期的Transformer跟蹤方法主要采用了雙流兩階段跟蹤框架,如DualTFR [31]、SFTransT [32]

        方法

        我們提出了一種基于跨層空間-通道協作注意力融合的目標跟蹤方法,旨在從ViT主干網絡的多層特征中聚合目標語義顯著信息,從而提高跟蹤的準確性和魯棒性。以下部分詳細介紹了所提出方法的整體框架以及關鍵模塊的設計和實現。

        實現細節

        所提出的跟蹤器是用Python 3.7.13和PyTorch 1.13.0實現的。訓練和測試都在配備NVIDIA RTX 4090 GPU(24 GB)的服務器上進行。
        模型配置:我們采用預訓練了MAE [47]權重的ViT-Base主干網絡。跟蹤頭采用了一個輕量級的FCN,包括四個堆疊的Conv-BN-ReLU層,用于三個中心的回歸輸出。跨層特征融合模塊嵌入在五個深度融合節點編碼器中

        結論

        本文提出了一種基于跨層空間-通道協作注意力融合的目標跟蹤算法,旨在深入探索主干網絡中每一層的特征信息,并有效聚合目標顯著信息,從而提高跟蹤的魯棒性。同時,它解決了大多數現有跟蹤器僅使用最后一層特征而忽略淺層特征中包含的豐富目標信息的問題。

        CRediT作者貢獻聲明

        盧玉超:寫作 – 審稿與編輯,寫作 – 原始草稿,可視化,方法論,調查。高云:寫作 – 審稿與編輯,資源,方法論,資金獲取。孫耀偉:數據管理。王濤:方法論。

        利益沖突聲明

        作者聲明他們沒有已知的競爭財務利益或個人關系可能會影響本文報告的工作。

        致謝

        本工作得到了國家自然科學基金的支持,資助編號為6226605161802337
        相關新聞
        生物通微信公眾號
        微信
        新浪微博

        知名企業招聘

        熱點排行

          今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

          版權所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯系信箱:

          粵ICP備09063491號