SGAFuse:一種基于動態門控機制的、用于RGB-熱圖像的語義引導自適應融合方法
《Neural Networks》:SGAFuse: Semantic-Guided Adaptive Fusion for RGB-Thermal Images via Dynamic Gating
【字體:
大
中
小
】
時間:2026年03月02日
來源:Neural Networks 6.3
編輯推薦:
語義引導多模態融合方法通過雙模態特征對齊與動態門機制自適應調整模態權重,有效解決不同場景下融合策略不統一的問題。
趙陽|苗德水|田超|朱國慶|何振宇
哈爾濱工業大學(深圳)計算機科學與技術學院,中國
摘要
可見光和紅外圖像融合旨在整合兩種模態的互補信息,以生成高質量的融合圖像,從而提升下游計算機視覺任務的性能。然而,現有的融合方法往往對圖像使用相同的權重進行融合,忽略了兩種模態在空間分布中的不同重要性,以及在不同場景下需要動態調整融合方法的需求。為了解決這些問題,我們提出了一種新的RGB-T融合方法,該方法通過語義引導的注意力機制和動態門控機制來提高對不同場景的魯棒性。具體來說,通過結合語義注意力重要性圖,我們提出了一個雙模態語義驅動的特征對齊模塊,該模塊包括跨模態查詢補償模塊和模內查詢增強模塊,用于探索兩個輸入圖像中不同空間區域的重要性差異。隨后,我們引入了一個動態多路徑門控機制,使網絡能夠根據不同場景的輸入調整每個模塊的權重,從而最終提高融合算法在各種場景下的魯棒性。在四個基準數據集上進行的全面實驗表明,我們的方法在定性和定量評估中均取得了最先進的性能。
引言
可見光和紅外圖像(RGB-T)融合旨在結合兩種模態的互補信息,生成保留每種模態最重要特征的高質量融合圖像。這類融合圖像在下游計算機視覺任務中發揮著關鍵作用,包括目標檢測(Tian等人,2024年);跟蹤(Yin等人,2022年)和顯著目標檢測(Peng等人,2024年)。由于成像機制的不同,可見光圖像在正常光照條件下擅長捕捉紋理細節和顏色信息,而紅外圖像依賴于熱輻射,因此在遮擋環境中檢測發熱物體時具有更好的魯棒性。
在過去的幾年中,現有的融合方法通過各種途徑取得了顯著進展。具體而言,基于CNN的方法(Li和Wu,2018年;Li、Wu、Kittler,2021年;Li、Xu,2023年;Long等人,2021年;Zhang等人,2020年)利用了深度特征提取能力,DenseFuse(Li和Wu,2018年)引入了具有密集塊的編碼器-解碼器架構,LRRNet(Li等人,2023年)通過分解提取低秩特征以減少噪聲。同時,基于Transformer的方法(Li和Wu,2024年;Liu等人,2024年;Ma等人,2022年;Tang等人,2024年;Zhang等人,2025a)利用了長距離依賴性和全局上下文信息,SwinFusion(Ma等人,2022年)結合了Swin Transformer以增強細節表示,CrossFuse(Li和Wu,2024年)通過跨模態特征融合和深度監督學習實現了高質量的融合。此外,最近的方法(Li等人,2024年;Qian等人,2024年;Zhao、Bai等人,2023年;Zhao、Xu、Zhang、Liu、Zhang、Li,2020年)還探索了模態分解技術,以更好地處理RGB圖像和熱圖像之間的異質性。BiDA(Zhang等人,2025b)通過領域不變的特征分離增強了跨域魯棒性,用于高光譜分類。
然而,盡管取得了這些進展,當前的方法(Li和Wu,2024年;Ma等人,2022年;Tang等人,2024年)在所有空間區域和不同場景中應用了統一的融合策略,未能考慮到不同模態在不同區域和場景中的不同重要性。如圖1所示,綠色和紅色框突出顯示了兩種模態的關鍵區域和不同的融合結果。在基于Transformer的方法CrossFuse(Li和Wu,2024年)中,紅外模態的目標沒有完全保留,導致這些目標在融合圖像中顯得模糊。盡管LRRNet(Li等人,2023年)在白天場景中表現良好,但其性能在夜間會下降。DIDFuse(Zhao等人,2020年)通過解耦模態解決了這個問題,但其固定的融合策略可能導致融合圖像中的行人模糊。通過上述分析,我們觀察到紅外和可見光模態具有不同的成像特性,每種模態的重要性和信息質量在空間區域和成像條件上差異顯著。因此,對所有區域應用相同的融合策略不可避免地會導致次優結果,因為一種模態中具有高質量信息的區域可能會被另一種模態的低質量信息所影響。
為了解決上述挑戰,我們提出了SGAFuse,這是一種新的融合框架,通過語義引導的注意力和動態門控機制系統地解決了自適應融合策略選擇的問題。具體來說,我們利用對比語言-圖像預訓練(CLIP)模型(Jiang、Fang、Han、Lu、Xu、Liao、Chang、Liang,2025年;Jiang、Lu、Liang、Zhu、Zhang、Chang、Xu,2023年;Radford等人,2021年)和文本提示生成重要性圖,有效地識別了紅外和可見光圖像中的顯著區域,并提供了理解跨模態區域重要性變化的語義級指導。在此基礎上,我們設計了一個雙模態語義驅動的特征對齊(DSFA)模塊,包括模內查詢增強(IMQE)和跨模態查詢補償(CMQC)模塊。IMQE模塊使用語義引導的重要性圖增強來自顯著區域的查詢,以提取模態特有的特征,而CMQC模塊采用了一種互補策略,用另一種模態的高質量查詢替換低信息查詢。此外,我們引入了一種名為動態多路徑門控(DMG)的自適應門控機制,將自適應門控集成到每個注意力組件中,根據樣本的特定特征動態調整它們的權重,從而在各種場景中實現最佳融合性能。通過在四個基準數據集(包括TNO De With和Seinstra,2005年;RoadScene Xu等人,2020b;MSRS Tang等人,2022a;M3FD Liu等人,2022年)上進行的全面實驗,我們的方法在定量指標和定性評估中均表現出優于現有最先進融合技術的性能。
我們方法的貢獻如下:
•我們開發了一個雙模態語義驅動的特征對齊模塊,以增強語義理解和空間建模,提取兩種模態的互補特征和模態特有的特征。
•我們設計了一個動態多路徑門控機制,將不同樣本中每種模態的不同注意力元素整合在一起。
•在四個數據集上進行了廣泛的實驗評估,證明了我們方法的有效性以及每個提出組件的能力。
相關工作
相關研究
可見光和紅外圖像融合旨在整合兩種模態的互補信息,生成單一的綜合性表示。當前的方法大致可以分為兩類主要范式:直接融合方法,它們均勻處理多模態輸入;以及基于分解的方法,它們通過特征分離策略顯式處理模態差異。
方法論
當前的RGB-T融合方法在所有空間區域應用統一的融合策略,未能考慮到不同模態在不同區域和場景中的不同重要性。為了解決這個問題,我們提出了SGAFuse,這是一種新的融合框架,通過語義引導的注意力和動態門控機制系統地解決了自適應融合策略選擇的問題。
實驗
在本節中,我們首先詳細介紹了研究中使用的實驗設置和配置。然后,我們展示了定量和定性實驗,以證明我們提出方法的有效性。最后,為了驗證提出的CMQC和IMQE模塊的有效性,以及驗證動態多路徑門控(DMG)機制在不同場景下的有效性,我們進行了可視化和消融實驗。
結論
在本文中,我們提出了SGAFuse方法,以提高融合模型在多種場景下的魯棒性。首先,為了解決兩種模態在空間分布中的不同重要性,我們設計了一個雙模態語義驅動的特征對齊機制,包括跨模態查詢補償(CMQC)和模內查詢增強(IMQE)模塊,這些模塊借助CLIP提取的語義圖實現了語義互補性和空間建模。隨后,為了
CRediT作者貢獻聲明
趙陽:撰寫 – 審稿與編輯,撰寫 – 原始草稿,方法論,調查,概念化。苗德水:撰寫 – 審稿與編輯,撰寫 – 原始草稿。田超:方法論,調查。朱國慶:資源。何振宇:監督。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號