可變形圖像配準(zhǔn)在廣泛的醫(yī)學(xué)圖像處理和分析任務(wù)中至關(guān)重要(Chen, Xu, Yi, Yang, Hou, Ding, Granichin, 2019; Zheng, Wang, Yang, Deng, Ding, Hou, 2024),例如運(yùn)動校正(Sui, Afacan, Jaimes, Gholipour, & Warfield, 2025)、多模態(tài)圖像融合(Yang et al., 2025)、疾病診斷(Lv, Wang, & Li, 2022)和圖像引導(dǎo)手術(shù)(Li, Stoyanov, & Vasconcelos, 2023)。圖像配準(zhǔn)的目標(biāo)是確定一種變換,使圖像(移動圖像)與其參考圖像(固定圖像)在空間上對齊。這一過程的準(zhǔn)確性至關(guān)重要,因?yàn)樗苯佑绊懴掠畏治龅目煽啃浴2恍业氖牵_發(fā)一種在各種場景中都能始終提供高精度對齊的配準(zhǔn)方法仍然具有挑戰(zhàn)性(Song, Wang, & Yan, 2022)。
可變形圖像配準(zhǔn)通常采用迭代優(yōu)化技術(shù)來實(shí)現(xiàn),這些技術(shù)側(cè)重于基于變形圖像和固定圖像的經(jīng)驗(yàn)公式化能量函數(shù)的重復(fù)優(yōu)化(Meng, Feng, & Kim, 2023)。然而,這種迭代方法的本質(zhì)上是耗時(shí)的,這對其在實(shí)時(shí)臨床應(yīng)用(如圖像引導(dǎo)的術(shù)中導(dǎo)航)構(gòu)成了重大挑戰(zhàn)(Liebmann, Snedeker et al., 2024)。
最近,深度學(xué)習(xí)方法作為可變形圖像配準(zhǔn)的快速解決方案應(yīng)運(yùn)而生(Liu, Gao, Liu, Pan, Liang, Yan, Ma, He, Zhang, Pan, et al., 2021; Zhong, Zhang, Liu, Zhang, Mo, Zhang, Hu, Chen, Qi, 2023),由于其在特征學(xué)習(xí)方面的先進(jìn)能力,表現(xiàn)出顯著的效果,優(yōu)于傳統(tǒng)技術(shù)。無監(jiān)督學(xué)習(xí)范式利用相似性度量而不需要真實(shí)的變形場,因其實(shí)用性和可擴(kuò)展性而引起了廣泛關(guān)注(Balakrishnan, Zhao, Sabuncu, Guttag, & Dalca, 2019)。這些方法(Meng et al., 2023)通常首先從一對固定-移動圖像開發(fā)出一個(gè)參數(shù)化的映射函數(shù)到相應(yīng)的變形場。然后使用包含未配準(zhǔn)對的數(shù)據(jù)集來細(xì)化參數(shù)。訓(xùn)練階段完成后,可以通過單次前饋快速推斷出變形場。然而,在圖像對之間的位移較大的情況下,估計(jì)變形場變得具有挑戰(zhàn)性,往往使得這些基于學(xué)習(xí)的方法無效(Zhao, Chang, & Xu, 2019a)。多項(xiàng)研究指出了這個(gè)問題,強(qiáng)調(diào)在涉及大位移的復(fù)雜臨床場景中,直接估計(jì)方法的效果通常有限(Kang, Hu, Huang, Scott, Reyes, 2022; Lewis, Rost, Guttag, Dalca, 2020)。
為了解決這個(gè)問題,研究人員采用了一種粗到細(xì)的學(xué)習(xí)方法,將目標(biāo)變形場分解為一系列更容易估計(jì)的組成部分(Li, Li, Li, & Lu, 2024)。這種分解過程允許對移動圖像進(jìn)行多次連續(xù)的變形處理并糾正誤差。因此,先前分解中變形場的錯(cuò)位可以在后續(xù)估計(jì)中得到糾正,從而實(shí)現(xiàn)從粗略到精確的精度提升。根據(jù)所實(shí)施模型的配置,這些技術(shù)通常分為兩大類:迭代配準(zhǔn)和金字塔配準(zhǔn)。迭代技術(shù)(Hu, Zhou, Xiong, Wu, 2022; Zhao, Dong, Chang, Xu, et al., 2019b)通過重復(fù)提取特征來逐步細(xì)化變形場,但由于每一步都需要進(jìn)行特征提取,因此計(jì)算成本較高。基于金字塔的方法(Lv, Wang, Li, 2022; Meng, Feng, Kim, 2023)通過首先在低分辨率下估計(jì)一個(gè)粗略的場,然后逐步細(xì)化它,提供了一種更高效的替代方案。
同時(shí),注意力機(jī)制在醫(yī)學(xué)圖像配準(zhǔn)領(lǐng)域引起了廣泛關(guān)注,因?yàn)樗鼈兊脑O(shè)計(jì)簡單而有效(Kong, Zhou, 2023; Leroy, Deutsch, Lepetit, Paragios, 2023)。大量研究表明,與其他技術(shù)(Liu, Carass, 2022; Rühaak, Heinrich, 2017)相比,使用基于注意力機(jī)制的方法提高了配準(zhǔn)性能。例如,TransMorph(Chen, Zheng, & Gee, 2023)使用變換器進(jìn)行全局特征相關(guān)性處理,而GroupMorph(Tan, Zhang, Lv, Ma, & Lu, 2024)利用分組相關(guān)性來捕捉大變形和小變形。然而,這些方法的一個(gè)局限性是,移動圖像和固定圖像之間的特征交互往往探索不足,這限制了模型學(xué)習(xí)精確的體素級對應(yīng)關(guān)系的能力。
基于這些成功,我們提出了LGANet++,這是一種基于金字塔配準(zhǔn)框架的新方法。我們引入了一個(gè)局部-全局注意力模塊(LGAM),它捕獲了細(xì)粒度的局部對應(yīng)關(guān)系和長距離的上下文關(guān)系,以處理變形中的顯著區(qū)域變化。此外,我們設(shè)計(jì)了一個(gè)特征交互和融合模塊(FIFM)來增強(qiáng)變形圖像和固定圖像之間的信息交換,以及一個(gè)多尺度融合模塊(MSFM)來整合不同分辨率下的語義線索。這些組件共同實(shí)現(xiàn)了變形場的層次化細(xì)化,顯著提高了各種任務(wù)中配準(zhǔn)的魯棒性。廣泛的實(shí)驗(yàn)表明,我們的方法在各種配準(zhǔn)任務(wù)中始終實(shí)現(xiàn)了高準(zhǔn)確性和強(qiáng)大的泛化能力。定量結(jié)果顯示,LGANet++在跨患者配準(zhǔn)中提高了1.39%的準(zhǔn)確性,在跨時(shí)間配準(zhǔn)中提高了0.71%的準(zhǔn)確性,在跨模態(tài)CT-MR配準(zhǔn)任務(wù)中提高了6.12%的準(zhǔn)確性。值得注意的是,這些改進(jìn)突顯了LGANet++在具有挑戰(zhàn)性的配準(zhǔn)場景中的優(yōu)越有效性和魯棒性,特別是在存在較大外觀差異的跨模態(tài)CT-MR配準(zhǔn)中。
我們的主要貢獻(xiàn)如下:
我們提出了一種新穎的粗到細(xì)的編碼器-解碼器網(wǎng)絡(luò)LGANet++,其中結(jié)合了局部-全局注意力機(jī)制,以實(shí)現(xiàn)準(zhǔn)確和魯棒的可變形圖像配準(zhǔn)。我們設(shè)計(jì)了一個(gè)多尺度融合模塊(MSFM),有效地整合和傳遞不同分辨率特征圖之間的語義信息,增強(qiáng)了變形場中的上下文一致性。我們開發(fā)了兩個(gè)專用模塊:LGAM用于捕獲局部和全局特征依賴性,以及一個(gè)特征交互和融合模塊(FIFM),包括一個(gè)圖像分解模塊(IDM)和一個(gè)通道級注意力模塊(CWAM),以實(shí)現(xiàn)結(jié)構(gòu)化和精細(xì)的對齊。我們在五個(gè)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),涵蓋了三種不同的場景,以評估我們提出方法的有效性,展示了其與九種最先進(jìn)技術(shù)相比的優(yōu)越配準(zhǔn)性能。