《Array》:Small Target Detection in Remote Sensing Images Based on Multi-scale Self-Attention Aggregation and Coordinate Attention Enhancement
編輯推薦:
為解決遙感圖像中小目標因網(wǎng)絡池化導致紋理與邊緣退化,且受尺度多變與任意方向干擾的問題,本文提出將SuperYOLO中原有的像素級對稱多模態(tài)融合模塊替換為多尺度自注意力聚合模塊以優(yōu)化通道權重、增強關鍵特征,并將坐標注意力融入CSP模塊以強化空間坐標編碼、提高復雜背景下的空間辨別能力。實驗在VEDAI、AI-TOD和DOTA數(shù)據(jù)集上驗證了該方法的有效性,在VEDAI上達到78.9%的mAP50,較SuperYOLO提升3.8%。這項工作為遙感小目標檢測提供了更精準的解決方案。
在廣袤的天空之上,衛(wèi)星和無人機日夜不停地捕捉著地面的影像,這些遙感圖像中隱藏著無數(shù)重要的信息——無論是城市中穿梭的車輛、港口停泊的船只,還是農田里作業(yè)的拖拉機。然而,要從這些“上帝的視角”圖片中找到這些目標,尤其是那些在圖像中只占幾十甚至幾個像素的“小不點”,對計算機視覺來說一直是個棘手的難題。這些小目標就像隱藏在巨大拼圖中的微小碎片,它們的紋理和邊緣信息在網(wǎng)絡的一次次池化操作中變得模糊,加上遙感圖像中目標尺度變化大、方向任意,以及復雜背景的干擾,讓精準檢測變得困難重重。
現(xiàn)有的先進方法,例如SuperYOLO,雖然取得了一定進展,但仍存在兩個關鍵局限:其一,它使用的像素級對稱多模態(tài)融合模塊,未能有效區(qū)分不同通道(如RGB可見光與紅外熱輻射通道)對小目標語義貢獻的差異,導致關鍵特征與背景噪聲混雜,產生特征冗余;其二,其采用的跨階段部分網(wǎng)絡模塊在特征提取過程中缺乏顯式的空間坐標編碼,下采樣會加劇小目標的位置偏移,且該模塊的跨階段融合只關注通道間交互,忽略了空間上下文的聚合,使得模型在相似背景下區(qū)分目標的能力不足。
為了解決這些問題,來自國內研究機構的研究人員在《Array》期刊上發(fā)表了他們的最新工作。他們并未另起爐灶,而是在SuperYOLO的框架基礎上,進行了兩項精準的“外科手術式”改進。首先,他們用全新的多尺度自注意力聚合模塊取代了原有的多模態(tài)融合模塊。這個新模塊就像一個智能的調音師,能夠跨多個尺度優(yōu)化特征通道的權重,從而增強對小目標至關重要的特征(如車輛輪廓、熱信號),同時抑制無關的背景噪聲。其次,他們將坐標注意力機制融入到CSP模塊中,創(chuàng)造了一個增強版的CACSP模塊。這個機制通過特征圖與空間坐標的交互,顯式地編碼位置信息,就像給特征圖加上了經(jīng)緯度網(wǎng)格,顯著提升了模型在復雜空間背景下對小目標的定位和辨別能力。
為了驗證這些改進的有效性,研究人員主要運用了以下關鍵技術方法:他們在PyTorch框架下實現(xiàn)了整個模型,并在包含RGB和紅外雙模態(tài)的VEDAI數(shù)據(jù)集、以及高難度小目標數(shù)據(jù)集AI-TOD和大型場景數(shù)據(jù)集DOTA上進行了系統(tǒng)評估。實驗采用10折交叉驗證,訓練中應用了包括HSV調整、多尺度變換、馬賽克增強等多種數(shù)據(jù)增強技術,并使用SGD優(yōu)化器進行模型優(yōu)化。評價指標則采用了目標檢測領域標準的精確率、召回率以及平均精度均值(mAP)。
研究結果清晰地展示了改進帶來的性能提升:
- •
在VEDAI數(shù)據(jù)集上的綜合比較:改進后的模型在VEDAI數(shù)據(jù)集上取得了78.9%的mAP50,比基準模型SuperYOLO(75.1%)高出3.8%。特別地,對于“卡車”和“拖拉機”類別的檢測精度提升顯著,分別達到了18.9%和5.8%的增益。這得益于MSAA模塊優(yōu)化了卡車輪廓和熱信號等關鍵特征的通道權重,以及CA-CSP模塊緩解了下采樣造成的定位偏差。
- •
在多模態(tài)與單模態(tài)數(shù)據(jù)上的泛化能力:在僅使用RGB模態(tài)的VEDAI數(shù)據(jù)上,模型仍取得了74.60%的mAP50,優(yōu)于對比方法。在極具挑戰(zhàn)性的AI-TOD小目標數(shù)據(jù)集上,模型以61.94%的mAP50超過了FFCA-YOLO和SuperYOLO。在包含15個類別的大規(guī)模DOTA數(shù)據(jù)集上,模型同樣取得了最佳的72.83%的mAP50,證明了其強大的泛化性能。
- •
消融實驗驗證模塊有效性:系統(tǒng)的消融研究表明,單獨引入MSAA模塊或CACSP模塊均能提升模型性能,而兩者結合時產生了協(xié)同效應,取得了最佳的77.38%精確率、72.86%召回率和78.90%的mAP50。這明確證實了兩個新模塊各自的價值及其組合的優(yōu)勢。
- •
網(wǎng)絡架構探索:研究人員還探索了CACSP模塊在網(wǎng)絡中不同位置的替換策略。實驗發(fā)現(xiàn),采用“中間優(yōu)化與關鍵保留”的分層替換策略(Arch3)——即在特征融合后及終端輸出等關鍵節(jié)點保留原始CSP模塊,而在中間部分的CSP模塊替換為CACSP——能夠取得最佳性能,這為模塊的改進布局提供了重要設計思路。
綜上所述,這項研究通過引入多尺度自注意力聚合模塊和坐標注意力增強的CSP模塊,有效解決了遙感圖像小目標檢測中的特征冗余和定位偏差問題。研究表明,這種結合了通道權重優(yōu)化與顯式空間坐標編碼的策略,能夠顯著提升模型在多種復雜遙感場景下對小目標的檢測精度與魯棒性。不僅在多模態(tài)數(shù)據(jù)上表現(xiàn)優(yōu)異,在單模態(tài)可見光數(shù)據(jù)及多個公開基準數(shù)據(jù)集上也展現(xiàn)了強大的泛化能力。這項工作為遙感小目標檢測提供了一種高效且可擴展的解決方案,其核心設計思想——即通過注意力機制精細調節(jié)特征并強化空間感知——對于推動遙感圖像智能解譯技術的發(fā)展具有積極意義。當然,研究也存在局限,例如目前主要驗證了RGB和紅外模態(tài),未來可探索其在合成孔徑雷達、激光雷達等多傳感器數(shù)據(jù)上的適應性,并進一步擴展到更大規(guī)模的數(shù)據(jù)集和更極端的成像條件下,以增強其實用價值。