圖像超分辨率(Image Super-resolution)[2], [3], [4], [5], [6]是一項具有挑戰性的任務,因為退化過程會導致重要圖像信息的丟失,使得準確重建變得困難。這種退化可以建模為單獨的效應,如模糊和噪聲添加,或者是由多種因素組合而成的。早期的研究假設了預定義的圖像退化,并開發了各種方法[7], [8], [9], [10], [11], [12]來解決問題。然而,這些方法在實現高保真圖像重建方面存在局限性,并且難以有效處理極端退化情況。
隨著生成模型(generative models)的出現,例如生成對抗網絡(Generative Adversarial Networks, GAN)[13],人們開始通過對抗訓練[14]來模擬退化過程,從而通過近似逆變換來重建高質量圖像。基于GAN的方法[15], [16], [17], [18]在復雜退化條件下生成了感知上高質量的圖像。此外,還引入了包含大規模低分辨率(LR)和高分辨率(HR)圖像對[19], [20], [21]的數據集[19], [20], [21],涵蓋了各種現實世界的退化情況,以便進行更有效和標準化的評估,這構成了現實世界圖像超分辨率(Real-ISR)問題,以消除可能的復雜現實世界退化。BSRGAN[2]和Real-ESRGAN[21]等方法展示了顯著的改進,產生了細節更豐富、更真實的重建結果。然而,基于GAN的模型仍然存在一些局限性,包括引入噪聲、用人工生成的細節抑制原始內容,以及在某些情況下放大來自LR輸入的不希望出現的偽影,導致重建不準確。
擴散模型(Diffusion Models)[22], [23]的引入[22], [23]為圖像生成緩解了與GAN復雜訓練過程相關的挑戰。擴散過程可以遵循基于馬爾可夫鏈的去噪擴散概率模型(Denoising Diffusion Probabilistic Model, DDPM)[23], [24],或者利用隨機微分方程(Stochastic Differential Equations, SDEs)結合得分匹配網絡(Score Matching Networks)[25], [26], [27]來估計和去除噪聲。此外,擴散模型通過基于各種模態的條件化,如文本、LR圖像或圖像特定特征[1], [31], [32](如邊緣圖和高頻細節),促進了Real-ISR[28], [29], [30]和其他圖像恢復任務。
ResShift[33]作為一種值得注意的方法出現,它利用擴散框架內的逐步誤差移動來逐步將LR圖像細化為HR圖像。此外,ControlNet[1]的引入允許通過結合不同的基于圖像的特征(如邊緣)和其他高級屬性來進行空間條件化的擴散過程。文本到圖像模型[31], [34], [35], [36], [37]的進步,特別是基于擴散的方法(如Stable Diffusion[32]),為Real-ISR開辟了新的途徑。這些模型在大型數據集上訓練,從文本描述中學習了真實的圖像形成原理,使得它們能夠應用于圖像編輯、修復和各種形式的條件圖像處理——無論是從純噪聲還是初始退化的圖像。基于這些進步,出現了StableSR[3], SeeSR[38]和DiffBIR[39]等針對現實世界ISR任務的工作。StableSR和DiffBIR利用擴散先驗來提高超分辨率性能,而SeeSR專門用于從LR圖像中提取語義提示。通過利用擴散模型中固有的語義理解,SeeSR旨在在超分辨率過程中保持基于文本的關系。然而,由于該方法依賴于基于文本的語義條件,當輸入圖像的退化嚴重時,它容易生成意外的偽影。
與現有的基于擴散先驗的現實世界圖像超分辨率(real-world image super-resolution, Real-ISR)[3], [33], [38], [40]方法不同,這些方法依賴于全局語義先驗或文本條件化的交叉注意力(text-conditioned cross-attention),LGCAA通過在一個注意力機制中聯合建模局部幾何一致性和全局上下文統計來引入結構保留的重建。雖然現有的局部注意力策略保留了細節,但缺乏全局連貫性,而全局注意力機制在追求語義真實性的同時可能會丟失細節,LGCAA則使用全局結構感知的上下文顯式地約束了局部特征交互。這使得在嚴重和未知的退化情況下能夠忠實地重建邊緣、紋理和結構,而無需依賴額外的語義提示。因此,LGCAA從根本上不同于之前的注意力設計,它優先考慮結構真實性而非語義生成。
盡管在視覺變換器(vision transformers)中探索了局部-全局注意力[41], [42],但將這些設計直接應用于潛在擴散模型(latent diffusion models)通常會導致不穩定和偽影放大,尤其是在多步驟推理過程中。LGCAA是專門為基于擴散的超分辨率設計的。它在潛在空間中操作,強制實施基于局部特征和全局上下文的注意力響應,并通過適當的去噪來穩定全局上下文整合,這在圖像ISR中是常見的做法。LGCAA的目的不是引入新的架構組件,而是通過增強與DPACM(Distribution-Personalized Attention Conditional Modeling)基分布對齊模塊相關的圖像特征來提高超分辨率性能。
我們提出了一個用于Real-ISR的模型,該模型利用Stable Diffusion的訓練有素的圖像形成能力,同時確保有效保留LR圖像中存在的上下文信息。本文的主要貢獻如下:
•任何全局結構或紋理都可以在局部表示,我們的方法確保局部邊緣得到保留、銳化和完善,從而保持和增強整體全局紋理和結構。為此,我們使用局部-全局上下文感知注意力(Local-Global Context Aware Attention, LGCAA)模塊將LR條件圖像集成到Stable Diffusion流程中。該模塊確保了局部區域關系的保留,同時使單個像素能夠通過全局注意力機制捕獲長距離依賴性。
•此外,我們引入了分布和感知對齊條件模塊(Distribution and Perceptual Aligned Conditioning Module, DPACM),以保持LR和HR圖像之間的結構一致性,同時確保潛在空間中的直方圖有效保留。該模塊旨在保持生成HR圖像的感知質量。為此,我們使用Wasserstein-1距離來對齊LR和HR圖像的像素分布,確保忠實重建。此外,我們結合了一個基于ControlNet的魯棒特征提取器來增強輸出的輸出感知質量。
•在推理過程中,我們的模型能夠生成高質量和高保真的圖像,同時保留LR輸入的內容,并顯著提高視覺質量,如圖1所示。實驗結果表明,所提出的Real-ISR模型在多樣化的場景內容中始終表現出強大的性能,生成了如圖2所示的感知上吸引人的超分辨率圖像。