《Optics and Lasers in Engineering》:DCMamba: A differential coupling network based on dynamic convolution and mamba for misaligned image registration and fusion
編輯推薦:
本文提出DCMamba模型,通過(guò)動(dòng)態(tài)卷積和Mamba架構(gòu)解決紅外-可見(jiàn)光圖像對(duì)齊與融合問(wèn)題,提升細(xì)節(jié)保留和語(yǔ)義一致性。
張?jiān)频聕孔軍|陶學(xué)峰|盧明|姜敏
江南大學(xué)先進(jìn)輕工業(yè)過(guò)程控制重點(diǎn)實(shí)驗(yàn)室(教育部),中國(guó)無(wú)錫,214122
摘要 聯(lián)合圖像配準(zhǔn)與融合旨在對(duì)齊源圖像并生成更豐富、互補(bǔ)的融合圖像。現(xiàn)有方法依賴靜態(tài)卷積或注意力機(jī)制來(lái)融合錯(cuò)位的圖像。然而,它們忽略了自適應(yīng)感受野和全局-局部耦合,導(dǎo)致細(xì)粒度局部細(xì)節(jié)退化以及全局上下文語(yǔ)義減弱。在本文中,我們提出了一種基于動(dòng)態(tài)卷積和Mamba的差分耦合網(wǎng)絡(luò)(DCMamba)用于錯(cuò)位圖像的配準(zhǔn)與融合。首先,為了校正多尺度幾何畸變,我們提出了漸進(jìn)式差分配準(zhǔn)(PDR)方法,通過(guò)空間和通道差分加權(quán)來(lái)估計(jì)多尺度變形場(chǎng)。其次,為了增強(qiáng)細(xì)粒度局部細(xì)節(jié)和全局-局部特征耦合,我們開(kāi)發(fā)了動(dòng)態(tài)多層特征提取(DMFE)方法,該方法結(jié)合動(dòng)態(tài)卷積和SingleMamba來(lái)強(qiáng)化局部和全局特征表示。第三,為了提高互補(bǔ)語(yǔ)義和全局-局部融合耦合,我們?cè)O(shè)計(jì)了差分漸進(jìn)式Mamba融合(DPMF)方法,它結(jié)合了通道交換和多模態(tài)Mamba,增強(qiáng)了細(xì)粒度局部細(xì)節(jié)和全局上下文語(yǔ)義。在錯(cuò)位的多模態(tài)數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明,DCMamba在配準(zhǔn)精度和融合質(zhì)量方面均顯著優(yōu)于現(xiàn)有方法。
引言 紅外與可見(jiàn)光圖像融合(IVIF)整合了互補(bǔ)的熱量和紋理信息,生成高質(zhì)量且模態(tài)互補(bǔ)的融合圖像。它在遙感[1]、目標(biāo)檢測(cè)[2]、醫(yī)學(xué)診斷[3] [4]和軍事偵察[5]中發(fā)揮著重要作用。
實(shí)際上,來(lái)自不同傳感器的紅外和可見(jiàn)光圖像通常存在空間錯(cuò)位。這種錯(cuò)位主要是由于視差[6]、傳感器姿態(tài)偏差或仿射畸變?cè)斐傻摹,F(xiàn)有的IVIF方法[7] [8] [9] [10] [11]主要針對(duì)對(duì)齊良好的圖像對(duì)設(shè)計(jì)。直接融合錯(cuò)位的圖像往往會(huì)導(dǎo)致畸變,從而產(chǎn)生模糊的邊緣或結(jié)構(gòu)偽影。為了解決這個(gè)問(wèn)題,一些研究[12] [13]將圖像配準(zhǔn)集成到IVIF中,形成了聯(lián)合圖像配準(zhǔn)與融合(JIRF)框架,如圖1(a)所示。JIRF旨在通過(guò)同時(shí)優(yōu)化空間對(duì)齊和特征融合來(lái)保留細(xì)粒度局部細(xì)節(jié)和全局上下文語(yǔ)義。
盡管JIRF取得了進(jìn)展,現(xiàn)有方法[6] [14] [15] [16]仍然難以保留細(xì)粒度細(xì)節(jié)和全局-局部耦合。基于CNN的JIRF方法[6] [14]傾向于過(guò)分強(qiáng)調(diào)局部紋理,這限制了它們的自適應(yīng)感受野并阻礙了長(zhǎng)距離依賴關(guān)系的建模。此外,基于Transformer的方法[15] [17] [18]通過(guò)自注意力來(lái)建模長(zhǎng)距離依賴關(guān)系,但塊狀獨(dú)立性引入了塊偽影,而靜態(tài)注意力無(wú)法適應(yīng)動(dòng)態(tài)任務(wù)。結(jié)果,空間連續(xù)性在初始階段就被離散化和壓縮,減少了每個(gè)塊內(nèi)的高頻細(xì)節(jié)和像素級(jí)結(jié)構(gòu)信息。
最近,狀態(tài)空間模型(SSMs)[19] [20],特別是Mamba[21],作為一種高效的長(zhǎng)距離建模新范式出現(xiàn)。其選擇性的狀態(tài)轉(zhuǎn)換能夠以線性復(fù)雜度實(shí)現(xiàn)內(nèi)容感知的全局推理。與Transformer相比,Mamba在各種視覺(jué)任務(wù)中表現(xiàn)出更優(yōu)越的性能。這為將Mamba引入JIRF提供了有希望的方向。
然而,現(xiàn)有的基于Mamba的方法[22] [23]主要強(qiáng)調(diào)全局表示,忽略了局部細(xì)紋理(例如邊緣、紋理)與全局語(yǔ)義(例如布局、場(chǎng)景結(jié)構(gòu))之間的耦合。這種“全局優(yōu)先、局部次要”的偏見(jiàn)常常導(dǎo)致融合圖像中的細(xì)節(jié)模糊或語(yǔ)義不一致(圖2),尤其是在行人和車牌區(qū)域。為了利用全局和局部的優(yōu)勢(shì),我們提出了一種差分耦合網(wǎng)絡(luò)[24],在JIRF中集成動(dòng)態(tài)卷積和Mamba(圖1(b))。與現(xiàn)有方法不同,我們提出了一種顯式的差分全局-局部耦合策略,在統(tǒng)一框架內(nèi)結(jié)合動(dòng)態(tài)卷積進(jìn)行局部適應(yīng)和Mamba進(jìn)行長(zhǎng)距離依賴關(guān)系建模。該設(shè)計(jì)同時(shí)優(yōu)化了局部和全局表示,有效保留了細(xì)粒度紋理,同時(shí)保持了全局語(yǔ)義一致性。與現(xiàn)有JIRF方法的區(qū)別總結(jié)在表1中。
本文提出了DCMamba,一種基于動(dòng)態(tài)卷積和Mamba的差分耦合網(wǎng)絡(luò),如圖3所示。DCMamba由配準(zhǔn)網(wǎng)絡(luò)(N R )和融合網(wǎng)絡(luò)(N F )組成。首先,N R 采用漸進(jìn)式差分配準(zhǔn)(PDR)來(lái)估計(jì)多尺度變形場(chǎng)。它引入差分加權(quán)以解決幾何錯(cuò)位問(wèn)題。空間權(quán)重突出邊緣豐富的區(qū)域以實(shí)現(xiàn)精確的局部對(duì)齊。通道權(quán)重強(qiáng)調(diào)模態(tài)特定特征,以促進(jìn)跨模態(tài)語(yǔ)義對(duì)齊。其次,為了提高全局-局部特征耦合,我們提出了動(dòng)態(tài)多層特征提取(DMFE),它結(jié)合動(dòng)態(tài)卷積和自適應(yīng)感受野來(lái)提取局部細(xì)節(jié)特征,而SingleMamba(S-Mamba)捕獲長(zhǎng)距離依賴關(guān)系以增強(qiáng)全局語(yǔ)義。第三,為了增強(qiáng)跨模態(tài)互補(bǔ)性和全局-局部融合耦合,我們提出了差分漸進(jìn)式Mamba融合(DPMF)。
它采用通道交換融合(CEF)與S-Mamba來(lái)細(xì)化細(xì)粒度局部細(xì)節(jié),并采用密集Mamba融合(DMF)與多模態(tài)Mamba(M-Mamba)來(lái)建模長(zhǎng)距離依賴關(guān)系并強(qiáng)化全局上下文語(yǔ)義。我們的主要貢獻(xiàn)總結(jié)如下:
• DCMamba結(jié)合動(dòng)態(tài)卷積和Mamba來(lái)校正錯(cuò)位圖像并強(qiáng)化全局-局部耦合。
• PDR通過(guò)差分加權(quán)估計(jì)多尺度變形場(chǎng),有效校正空間畸變和偽影。
• DMFE結(jié)合全維度動(dòng)態(tài)卷積和S-Mamba,改進(jìn)了細(xì)粒度和長(zhǎng)距離特征的提取。
• DPMF通過(guò)CEF和DMF實(shí)現(xiàn)差分融合,共同增強(qiáng)融合的互補(bǔ)性和語(yǔ)義完整性。
部分內(nèi)容 聯(lián)合圖像配準(zhǔn)與融合 聯(lián)合圖像配準(zhǔn)與融合旨在校正錯(cuò)位并生成具有豐富紋理和顯著結(jié)構(gòu)的融合圖像。早期研究[25] [31] [32]將配準(zhǔn)和融合視為兩個(gè)階段的任務(wù)。黃等人[31]采用了雙階段循環(huán)注意力學(xué)習(xí)JIRF框架。李等人[32]將圖像配準(zhǔn)嵌入到特征提取階段,然后進(jìn)行圖像融合。然而,這些方法忽略了跨模態(tài)差異和聯(lián)合優(yōu)化,通常導(dǎo)致
動(dòng)機(jī)與概述 現(xiàn)有的紅外和可見(jiàn)光圖像配準(zhǔn)與融合框架在對(duì)齊的圖像對(duì)上表現(xiàn)良好,但忽略了長(zhǎng)距離特征依賴性和細(xì)粒度局部細(xì)節(jié)。與以往的方法不同,我們提出了DCMamba,一種全局-局部耦合的配準(zhǔn)與融合網(wǎng)絡(luò),如圖3所示。給定源可見(jiàn)光圖像 和源錯(cuò)位紅外圖像 作為輸入。錯(cuò)位的圖像對(duì)被首先輸入到配準(zhǔn)網(wǎng)絡(luò)N R
數(shù)據(jù)集 我們?cè)趶V泛使用的多光譜道路場(chǎng)景(MSRS)數(shù)據(jù)集[58]上訓(xùn)練了所提出的DCMamba,該數(shù)據(jù)集包含1444對(duì)高質(zhì)量紅外-可見(jiàn)光圖像(715對(duì)白天和729對(duì)夜間),涵蓋九個(gè)類別。按照默認(rèn)劃分,1083對(duì)用于訓(xùn)練,361對(duì)用于測(cè)試。為了全面評(píng)估配準(zhǔn)精度、融合質(zhì)量和語(yǔ)義分割性能,我們?cè)谌齻(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):MSRS(361對(duì))、TNO(42對(duì))[59]和M3FD
結(jié)論 在這項(xiàng)工作中,我們提出了DCMamba,一個(gè)統(tǒng)一的框架,用于融合錯(cuò)位的多模態(tài)圖像,同時(shí)增強(qiáng)局部紋理細(xì)節(jié)和全局上下文語(yǔ)義。首先,PDR利用差分加權(quán)逐步估計(jì)最佳變形場(chǎng),有效校正空間畸變。其次,DMFE結(jié)合全維度動(dòng)態(tài)卷積和Mamba,通過(guò)平衡細(xì)粒度細(xì)節(jié)和長(zhǎng)距離依賴關(guān)系來(lái)強(qiáng)化特征耦合。第三,
CRediT作者貢獻(xiàn)聲明 張?jiān)频拢?/strong>撰寫——原始草稿、概念化、數(shù)據(jù)管理、形式分析、調(diào)查、方法論、軟件開(kāi)發(fā)、驗(yàn)證、可視化、撰寫——審閱與編輯。孔軍: 監(jiān)督、資金獲取。陶學(xué)峰: 調(diào)查、可視化、撰寫——審閱與編輯。盧明: 調(diào)查、可視化、撰寫——審閱與編輯。姜敏: 監(jiān)督、資金獲取。
利益沖突聲明 作者聲明他們沒(méi)有已知的競(jìng)爭(zhēng)性財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文所述的工作。
致謝 本工作部分得到了國(guó)家自然科學(xué)基金 (項(xiàng)目編號(hào)62,371,209和62371208)、B12018項(xiàng)目下的111個(gè)項(xiàng)目以及江蘇省研究生研究與實(shí)踐創(chuàng)新計(jì)劃(中央高校基本研究經(jīng)費(fèi) )(KYCX24_2515)的支持。