《Computer Vision and Image Understanding》:SpectraDiff: Enhancing the fidelity of Infrared Image Translation with object-aware diffusion
編輯推薦:
針對自主系統在低光等惡劣環境下依賴RGB攝像頭易失效及紅外傳感器成本高的問題,本文提出SpectraDiff擴散模型,通過融合RGB圖像與語義分割,利用對象感知模塊和光譜注意力塊生成高質量紅外圖像,并在多個數據集上驗證其優越性。
Incheol Park | Youngwan Jin | Nalcakan Yagiz | Hyeongjin Ju | Sanghyeop Yeo | Shiho Kim
韓國延世大學綜合技術學院
摘要
自主系統通常依賴于RGB相機,但這些相機在低光照和惡劣條件下容易發生故障。紅外(IR)成像通過捕捉與可見光無關的熱信號提供了一種可行的替代方案。然而,其高昂的成本和復雜的集成難度限制了其廣泛應用。為了解決這些問題,我們提出了SpectraDiff,這是一種基于擴散的框架,它通過融合RGB輸入和精細的語義分割來合成真實的IR圖像。通過我們的RGB-Seg Object-Aware(RSOA)模塊,SpectraDiff利用對象感知特征學習特定對象的IR強度。SpectraDiff架構采用了一種新穎的光譜注意力模塊,在語義相似的像素之間實現自注意力,同時利用與原始RGB的交叉注意力來保留高頻細節。在FLIR、FMB、MFNet、IDD-AW和RANUS等數據集上的廣泛評估表明,SpectraDiff在感知(FID、LPIPS、DISTS)和保真度(SSIM、SAM)指標方面均優于現有方法。代碼和預訓練模型可在此鏈接獲取:
https://yonsei-stl.github.io/SpectraDiff/
引言
確保自主系統在惡劣環境條件下的可靠運行是自動駕駛和機器人技術等領域面臨的重大挑戰。傳統的RGB相機在夜間、雨天、雪天、霧天和低光照條件下容易退化(Y. Zhang等人,2023年),這直接影響了這些系統的安全性和有效性。因此,探索能夠在這些條件下保持穩健性能的替代傳感方法至關重要。
紅外(IR)成像包括近紅外(NIR)、短波紅外(SWIR)、中波紅外(MWIR)和長波紅外(LWIR),在具有挑戰性的環境中提供了更好的穩健性(NG等人,2024年;Pinchon等人,2018年)。例如,熱成像相機通過捕捉行人的熱信號在夜間被廣泛用于檢測行人(Baek等人,2017年;Liu等人,2025年),從而提高了易受傷害的道路使用者的安全性。然而,IR傳感器的成本和集成復雜性限制了它們在自主系統中的廣泛應用。此外,與豐富的RGB數據集相比,公開可用的IR數據集的數量較少且規模較小(Jin等人,2025年),這進一步限制了該領域的研究進展。
為了解決這些問題,最近的研究(?zkano?lu和Ozer,2022年;Mizginov等人,2021年;Borstelmann等人,2024年;Uddin等人,2023年;Mao等人,2022年;Chen等人,2024年;Lee等人,2023年)專注于從RGB輸入合成IR圖像,從而避免了IR硬件的直接成本和復雜性。盡管付出了這些努力,當前的RGB到IR圖像轉換方法往往難以生成能夠準確反映特定紅外波長下對象特定IR強度的高質量圖像(Mao等人,2024年)。正如我們的定性評估(圖3)所示,大多數模型無法在不同對象類別之間捕捉到明顯的IR強度特征,尤其是在熱成像領域。最近的紅外恢復研究進一步表明,僅依靠視覺相似性是不夠的,強制保持語義結構和熱強度分布的一致性可以提高與真實熱圖像的物理對齊度(Li等人,2025年;Zou等人,2024年)。
除了RGB到IR的轉換之外,大量的紅外視覺研究還探索了增強、融合和感知方法,以應對IR圖像的固有挑戰,如低紋理、噪聲和模態差異。例如,Deep-IRTarget通過提取和分配互補的頻域(傅里葉)和空間域特征來提高紅外目標檢測能力(Zhang等人,2022年)。對于多模態感知,DFANet明確建模了差異性(模態特定)線索及其融合,用于紅外-可見光對象檢測(R. Zhang等人,2024年)。此外,IR增強方法旨在共同去噪、提高對比度并保留細節(Zhang等人,2025年),基于擴散的方法也被用于紅外-可見光圖像融合,以更好地協調光譜保真度和結構一致性(Liu等人,2025年)。雖然這些工作通常假設可以訪問真實的紅外測量數據,但我們的目標是互補的:我們使用廉價的RGB輸入(可選地結合語義先驗)合成真實的IR圖像,以緩解傳感器/數據的稀缺性并提高下游系統的穩健性。
同時,也探索了基于結構的先驗的擴散生成方法;例如,TIR-ControlNet(Mayr等人,2024年)主要通過分割指導生成多樣化的TIR輸出。雖然這種方法在可控性方面有效,但依賴分割作為主要條件可能會使生成的熱響應與輸入外觀脫鉤,有時會產生過強的強度(例如,建筑物過于明亮)。此外,其潛在的擴散和基于ControlNet的設計增加了模型和訓練的復雜性(L. Zhang等人,2023年)。
在這項工作中,我們提出了SpectraDiff,這是一種有效的基于擴散的模型,它將RGB圖像與分割圖結合,生成具有對象特定IR強度特征的IR圖像。SpectraDiff同時考慮RGB和分割信息,有效區分對象類別并分配光譜強度(例如,區分行人、車輛和背景的熱強度),從而解決了僅使用RGB的轉換方法的缺點,提供了更可靠的IR表示(圖1)。此外,為了處理缺乏分割圖的數據集,我們提出了一種使用大型語言模型(LLMs)精煉的開箱即用分割模型的靈活流程,確保了分割質量的一致性,并拓寬了我們方法的應用范圍。據我們所知,我們是少數提出專門的單階段擴散模型的研究之一,該模型同時利用RGB輸入和分割圖生成IR圖像,而無需依賴大型預訓練的潛在擴散模型。
總結來說,我們的主要貢獻如下:
- 我們提出了SpectraDiff,這是一種RGB到紅外圖像轉換的擴散模型,它將RGB圖像與分割圖融合,生成能夠有效捕捉多個紅外光譜范圍內對象特定IR強度的高質量紅外圖像。
- 我們提出了一種靈活的注釋流程,結合了開箱即用分割模型和基于LLM的標簽分類,允許在沒有真實分割數據集的情況下進行穩健的IR轉換。
- 我們在FLIR、FMB、MFNet、Ranus和IDD-AW數據集上進行了廣泛的實驗,證明SpectraDiff在SSIM、SAM、FID、LPIPS和DISTS指標上始終優于現有方法。值得注意的是,我們使用了一個更高效的模型實現了這些最先進的結果;SpectraDiff僅有178M參數,而PID有323M參數,BBDM有327M參數,Palette有552M參數。
部分摘錄
圖像到圖像的轉換
隨著深度學習的發展,圖像到圖像的轉換取得了顯著進展,尤其是通過生成對抗網絡(GANs)(Goodfellow等人,2014年)。早期的條件GANs如Pix2Pix(Isola等人,2017年)解決了配對域映射問題,而CycleGAN(Zhu等人,2017年)通過循環一致性處理非配對圖像,實現了跨域的轉換。Pix2PixHD(Wang等人,2018年)進一步擴展了這些技術
方法
我們的目標是將RGB圖像
轉換為紅外(IR)圖像
,從而在不同對象類別之間實現更一致的對象特定IR強度(例如,人在夜間通常比道路更亮)。為此,我們提出了SpectraDiff,它將RGB圖像和分割圖整合到一個擴散框架中。如圖2所示,SpectraDiff由三個主要部分組成:(i)語義分割圖生成和分類;(ii)
數據集
我們在包含多種紅外波長的多個數據集上評估了我們的方法性能,特別關注近紅外(NIR)和長波紅外(LWIR)圖像。對于熱紅外范圍,我們在FLIR Thermal Dataset(FLIR,2024年)、FMB Dataset(Liu等人,2023年)和MFNet Dataset(Ha等人,2017年)上評估了我們的方法。這些數據集包含數千張配對的RGB和熱圖像,常用于各種多模態計算機視覺任務
結論
我們提出了SpectraDiff,這是一種新穎的基于擴散的框架,用于跨不同光譜域的圖像到圖像轉換,包括近紅外(NIR)和長波紅外(LWIR)。通過我們的RGB-Seg Object-Aware模塊(RSOA)整合語義分割圖,SpectraDiff有效地學習和利用了對象特定的IR強度,從而實現了更準確的光譜轉換。在多種公共紅外數據集上的廣泛實驗表明,SpectraDiff取得了
CRediT作者貢獻聲明
Incheol Park:撰寫 – 審稿與編輯,原始草稿撰寫,項目管理,方法論,調查,概念化。Youngwan Jin:方法論,調查。Nalcakan Yagiz:撰寫 – 審稿與編輯,可視化,驗證。Hyeongjin Ju:驗證。Sanghyeop Yeo:驗證。Shiho Kim:撰寫 – 審稿與編輯,概念化。
利益沖突聲明
作者聲明以下可能被視為潛在利益沖突的財務利益/個人關系:Shiho Kim報告稱獲得了韓國科技信息通信部的財政支持。如果還有其他作者,他們聲明沒有已知的可能會影響本文所述工作的財務利益或個人關系。
致謝
本工作得到了信息與通信技術規劃與評估研究所(IITP)的資助,該資助由韓國政府(MSIT)提供(RS-2025-02218237,用于開發提高復雜自主移動安全性的數字創新技術)。