SWG-Fusion:一種結合軟環境引導和多模態融合技術的算法,在惡劣天氣條件下利用視覺學習模型(VLM)輔助純電動車輛(BEV)目標檢測
《Pattern Recognition》:SWG-Fusion: Soft Weather-Guided Multimodal Fusion with VLM-Assistance for BEV Object Detection under Harsh Weather
【字體:
大
中
小
】
時間:2026年03月01日
來源:Pattern Recognition 7.6
編輯推薦:
自主駕駛惡劣天氣下BEV檢測的多模態融合框架,提出VLM輔助的軟天氣引導機制和BEV對齊模塊,通過語義天氣描述動態調整多傳感器權重,結合雙流跨模注意力實現高效特征融合,在RADIATE數據集上驗證有效性。
王偉民|聶瑞峰|劉穎琪|馬龍|徐成培|賈琪|劉宇|雷娜
大連工業大學軟件學院,中國大連 116000
摘要
可靠的感知能力是自動駕駛的關鍵要求,然而雨、霧和雪等惡劣天氣條件會嚴重降低系統的可靠性。雖然雷達、激光雷達和攝像頭的多模態融合可以提高系統的魯棒性,但現有方法通常依賴于靜態融合策略,這些策略無法適應不同的天氣環境。為了解決這一限制,我們提出了SWG-Fusion,這是一個基于視覺語言模型(VLM)的輔助多模態融合框架,用于惡劣天氣條件下的鳥眼視圖(BEV)目標檢測。我們的工作引入了一種軟性天氣適應引導機制,該機制利用VLM從視覺輸入中提取語義天氣描述,并將其作為模態權重的自適應引導特征。此外,還應用了一個BEV對齊模塊,將視角圖像特征投影到BEV空間中,從而實現與激光雷達和雷達表示的統一和空間一致性的融合。進一步地,我們開發了一種雙流融合結構,共同細化模態特定特征和跨模態交互,從而提高檢測的魯棒性。在真實世界的RADIATE數據集上的廣泛實驗表明,我們的方法在雨、霧、雪和夜間場景中均取得了最先進的性能。消融研究進一步證明了每個模塊都提供了明確且一致的改進,驗證了整體設計在魯棒感知方面的有效性。
引言
準確且魯棒的感知能力對自動駕駛的安全至關重要。然而,在雨、霧、雪和低光照等惡劣環境條件下,感知性能往往會大幅下降[1]。這些條件會導致傳感器噪聲、視覺遮擋和信號衰減,從而使得不同感知模態之間的可靠性不一致。在這種情況下,單一模態系統常常會受到特定模態的影響;例如,由于照明不均,攝像頭在夜間可能會出現低光照和過曝問題,而激光雷達可能會受到雪或霧的干擾。傳感器特性的多樣性促使人們需要多模態融合,不僅是為了信息冗余,也是為了提取更豐富的語義和幾何上下文。為了在這種變化性條件下實現魯棒的感知,最近的研究越來越多地關注毫米波雷達、激光雷達、RGB攝像頭甚至高級語義上下文線索等多模態傳感器。通過利用這些傳感器模態的互補性,系統可以更好地彌補單個傳感器在惡劣條件下的弱點。這在諸如大雪或混合光照等復雜場景中尤為重要,因為適應性對于安全性至關重要。
盡管最近在傳感器數據融合方面取得了顯著進展(如圖1(a)所示),但大多數現有方法主要關注直線融合。這些方法在正常駕駛條件下表現良好,但在復雜天氣場景中卻表現出有限的魯棒性。例如,BEVFusion [2] 在鳥眼視圖(BEV)空間中生成了統一的表示,并在晴朗天氣下取得了良好的結果,但它缺乏專門用于有效緩解惡劣環境干擾導致性能下降的組件。此外,許多方法假設不同模態的可靠性相似,這忽略了不同天氣條件下傳感器置信度的顯著差異。這可能導致過度依賴降級的傳感器數據流(如被霧遮擋的攝像頭或被雪損壞的激光雷達),從而在整個感知過程中傳播不確定性和錯誤。盡管最近的研究探索了動態融合策略,但只有少數方法利用外部環境線索(如圖1(b)中的天氣上下文)以原則性和可解釋的方式指導融合過程。然而,現有的融合方法仍然沒有充分利用不同天氣條件對模態可靠性的細微影響,限制了它們通過動態和天氣感知指導來適應性放大或抑制模態特定特征的能力。在這些極端情況下,如混合降水、夜間能見度低或天氣條件快速變化時,這種局限性尤為明顯。因此,一個更加靈活、具有上下文感知能力和天氣適應性的融合框架對于確保在各種環境條件下的魯棒和可靠感知至關重要。
為了解決這些挑戰,我們提出了一種軟性天氣引導方法(如圖1(c)所示),該方法將動態天氣上下文提取到多模態數據的融合中。我們沒有使用預定義的天氣類別或手動置信度加權,而是利用視覺語言模型(VLM)獲取描述性天氣文本,然后將這些文本轉換為連續的語義天氣標記,作為融合的動態引導[3]。這使得系統能夠連續且平滑地調整不同模態之間的特征交互,從而在各種條件下提高融合性能。
總結來說,我們的工作做出了以下關鍵貢獻:
•我們提出了一種新穎的軟性天氣引導融合機制,用于BEV感知,該機制利用文本天氣線索進行天氣適應的多模態融合。
•為了與激光雷達和毫米波雷達傳感器的掃描特性相匹配,我們引入了一個用于圖像的BEV轉換模塊。
•為了更好地融合天氣上下文特征和其他模態,我們設計了一個高效的雙流交叉注意力模塊和多尺度方案。
•在真實世界的全天氣RADIATE數據集上的廣泛實驗和消融研究證明了我們提出的方法在惡劣環境下的BEV感知有效性。
相關工作
相關工作
本節回顧了在惡劣天氣條件下BEV目標檢測的最新進展。我們將相關文獻分為三個主要類別:(1)惡劣天氣條件下的目標檢測,(2)其他感知任務的多模態融合,以及(3)天氣引導融合策略。這些研究為我們的工作提供了技術基礎,并強調了需要適應性強、具有天氣感知能力的多模態架構。
概述
整個框架如圖2所示。給定輸入的RGB圖像,我們首先使用預訓練的視覺-語言模型提取當前場景的自然語言天氣描述,然后將這些描述編碼為天氣標記以提供語義引導。同時,原始雷達掃描數據、激光雷達點云和攝像頭圖像由特定于模態的編碼器處理,攝像頭特征進一步轉換為BEV空間[26]、[27]、[28],以實現與
數據集
盡管有許多關于惡劣天氣條件下的多模態數據集[1],但大多數數據集要么是完全模擬的(例如MUSES [40]、AdverseOp3D [22]),要么是在清晰數據中部分注入噪聲以模擬惡劣天氣(例如Foggy-ORR [20])。此外,其中一些數據集缺乏用于BVE目標檢測的雷達模態或注釋。nuScenes [41] 是一個用于自動駕駛的真實世界數據集,但它僅包含雨天數據,且使用的雷達傳感器與360°雷達不同
結論
在本文中,我們提出了SWG-Fusion,這是一個基于視覺語言模型(VLM)的輔助多模態融合框架,用于在各種惡劣天氣條件下實現可靠的BEV目標檢測。通過結合視覺、激光雷達和雷達模態以及由視覺語言模型提取的語義天氣線索,我們的方法能夠更自適應地融合多模態特征。所提出的軟性天氣適應引導和BEV對齊模塊共同實現了上下文感知的特征權重和空間一致性的跨模態融合
CRediT作者貢獻聲明
王偉民:撰寫 – 審稿與編輯,撰寫 – 原稿,可視化,監督,方法論,調查,概念化。聶瑞峰:撰寫 – 原稿,驗證,軟件,調查。劉穎琪:可視化,驗證,方法論,調查。馬龍:撰寫 – 審稿與編輯,監督,方法論,調查,概念化。徐成培:撰寫 – 審稿與編輯,驗證,監督,方法論。賈琪:撰寫 – 審稿與編輯,
利益沖突聲明
作者聲明他們沒有已知的財務利益或個人關系可能影響本文報告的工作。
致謝
本工作部分得到了中國國家自然科學基金(項目編號62306059和62506060)的支持。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號