欧美色熟妇,A片A级毛片,69天堂

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

具有局部-全局上下文感知能力且能保持圖像結構的超分辨率技術

《Neurocomputing》：Local-global context-aware and structure-preserving image super-resolution

【字體：大中小】 時間：2026年02月27日 來源：Neurocomputing 6.5

編輯推薦：

　　圖像超分辨率與擴散模型結合，提出局部-全局上下文感知注意力（LGCAA）機制和分布-感知對齊條件模塊（DPACM），通過保留局部幾何一致性和全局上下文統計，解決復雜退化場景下的噪聲放大與內容生成問題，實驗驗證其生成的高質量圖像在結構一致性和細節還原上優于現有方法。

桑查爾·帕利特（Sanchar Palit）| 蘇巴希斯·喬杜里（Subhasis Chaudhuri）| 比普拉布·班納吉（Biplab Banerjee）

印度孟買印度理工學院（Indian Institute of Technology Bombay, India）

摘要

擴散模型（Diffusion Models）最近在各種圖像處理任務中取得了顯著的成功，包括圖像超分辨率（image super-resolution）和感知質量提升（perceptual quality enhancement）。預訓練的文本到圖像模型（text-to-image models），如Stable Diffusion，展示了強大的合成真實圖像內容的能力，這使它們在解決超分辨率問題時特別具有吸引力。雖然一些現有方法利用這些模型取得了最先進的結果，但當應用于多樣化和嚴重退化的圖像時，它們常常會遇到問題，導致噪聲放大或內容生成不正確。為了解決這些限制，我們提出了一個上下文精確的圖像超分辨率框架，通過局部-全局上下文感知注意力（Local-Global Context-Aware Attention）有效地保持了局部和全局像素之間的關系，從而生成高質量的圖像。此外，我們提出了一種在像素空間中分布和感知對齊的條件機制（distribution- and perceptual-aligned conditioning mechanism），以提高感知保真度。該機制捕捉了細粒度的像素級表示，同時逐步保留和細化結構信息，從局部內容細節過渡到全局結構組成。在推理過程中，我們的方法生成的結構與原始內容一致的高質量圖像，減少了偽影并確保了真實的細節恢復。在多個超分辨率基準測試上的廣泛實驗證明了我們方法在產生高保真、感知準確的重建方面的有效性。

引言

圖像超分辨率（Image Super-resolution）[2], [3], [4], [5], [6]是一項具有挑戰性的任務，因為退化過程會導致重要圖像信息的丟失，使得準確重建變得困難。這種退化可以建模為單獨的效應，如模糊和噪聲添加，或者是由多種因素組合而成的。早期的研究假設了預定義的圖像退化，并開發了各種方法[7], [8], [9], [10], [11], [12]來解決問題。然而，這些方法在實現高保真圖像重建方面存在局限性，并且難以有效處理極端退化情況。

隨著生成模型（generative models）的出現，例如生成對抗網絡（Generative Adversarial Networks, GAN）[13]，人們開始通過對抗訓練[14]來模擬退化過程，從而通過近似逆變換來重建高質量圖像。基于GAN的方法[15], [16], [17], [18]在復雜退化條件下生成了感知上高質量的圖像。此外，還引入了包含大規模低分辨率（LR）和高分辨率（HR）圖像對[19], [20], [21]的數據集[19], [20], [21]，涵蓋了各種現實世界的退化情況，以便進行更有效和標準化的評估，這構成了現實世界圖像超分辨率（Real-ISR）問題，以消除可能的復雜現實世界退化。BSRGAN[2]和Real-ESRGAN[21]等方法展示了顯著的改進，產生了細節更豐富、更真實的重建結果。然而，基于GAN的模型仍然存在一些局限性，包括引入噪聲、用人工生成的細節抑制原始內容，以及在某些情況下放大來自LR輸入的不希望出現的偽影，導致重建不準確。

擴散模型（Diffusion Models）[22], [23]的引入[22], [23]為圖像生成緩解了與GAN復雜訓練過程相關的挑戰。擴散過程可以遵循基于馬爾可夫鏈的去噪擴散概率模型（Denoising Diffusion Probabilistic Model, DDPM）[23], [24]，或者利用隨機微分方程（Stochastic Differential Equations, SDEs）結合得分匹配網絡（Score Matching Networks）[25], [26], [27]來估計和去除噪聲。此外，擴散模型通過基于各種模態的條件化，如文本、LR圖像或圖像特定特征[1], [31], [32]（如邊緣圖和高頻細節），促進了Real-ISR[28], [29], [30]和其他圖像恢復任務。

ResShift[33]作為一種值得注意的方法出現，它利用擴散框架內的逐步誤差移動來逐步將LR圖像細化為HR圖像。此外，ControlNet[1]的引入允許通過結合不同的基于圖像的特征（如邊緣）和其他高級屬性來進行空間條件化的擴散過程。文本到圖像模型[31], [34], [35], [36], [37]的進步，特別是基于擴散的方法（如Stable Diffusion[32]），為Real-ISR開辟了新的途徑。這些模型在大型數據集上訓練，從文本描述中學習了真實的圖像形成原理，使得它們能夠應用于圖像編輯、修復和各種形式的條件圖像處理——無論是從純噪聲還是初始退化的圖像。基于這些進步，出現了StableSR[3], SeeSR[38]和DiffBIR[39]等針對現實世界ISR任務的工作。StableSR和DiffBIR利用擴散先驗來提高超分辨率性能，而SeeSR專門用于從LR圖像中提取語義提示。通過利用擴散模型中固有的語義理解，SeeSR旨在在超分辨率過程中保持基于文本的關系。然而，由于該方法依賴于基于文本的語義條件，當輸入圖像的退化嚴重時，它容易生成意外的偽影。

與現有的基于擴散先驗的現實世界圖像超分辨率（real-world image super-resolution, Real-ISR）[3], [33], [38], [40]方法不同，這些方法依賴于全局語義先驗或文本條件化的交叉注意力（text-conditioned cross-attention），LGCAA通過在一個注意力機制中聯合建模局部幾何一致性和全局上下文統計來引入結構保留的重建。雖然現有的局部注意力策略保留了細節，但缺乏全局連貫性，而全局注意力機制在追求語義真實性的同時可能會丟失細節，LGCAA則使用全局結構感知的上下文顯式地約束了局部特征交互。這使得在嚴重和未知的退化情況下能夠忠實地重建邊緣、紋理和結構，而無需依賴額外的語義提示。因此，LGCAA從根本上不同于之前的注意力設計，它優先考慮結構真實性而非語義生成。

盡管在視覺變換器（vision transformers）中探索了局部-全局注意力[41], [42]，但將這些設計直接應用于潛在擴散模型（latent diffusion models）通常會導致不穩定和偽影放大，尤其是在多步驟推理過程中。LGCAA是專門為基于擴散的超分辨率設計的。它在潛在空間中操作，強制實施基于局部特征和全局上下文的注意力響應，并通過適當的去噪來穩定全局上下文整合，這在圖像ISR中是常見的做法。LGCAA的目的不是引入新的架構組件，而是通過增強與DPACM（Distribution-Personalized Attention Conditional Modeling）基分布對齊模塊相關的圖像特征來提高超分辨率性能。

我們提出了一個用于Real-ISR的模型，該模型利用Stable Diffusion的訓練有素的圖像形成能力，同時確保有效保留LR圖像中存在的上下文信息。本文的主要貢獻如下：

•

任何全局結構或紋理都可以在局部表示，我們的方法確保局部邊緣得到保留、銳化和完善，從而保持和增強整體全局紋理和結構。為此，我們使用局部-全局上下文感知注意力（Local-Global Context Aware Attention, LGCAA）模塊將LR條件圖像集成到Stable Diffusion流程中。該模塊確保了局部區域關系的保留，同時使單個像素能夠通過全局注意力機制捕獲長距離依賴性。

•

此外，我們引入了分布和感知對齊條件模塊（Distribution and Perceptual Aligned Conditioning Module, DPACM），以保持LR和HR圖像之間的結構一致性，同時確保潛在空間中的直方圖有效保留。該模塊旨在保持生成HR圖像的感知質量。為此，我們使用Wasserstein-1距離來對齊LR和HR圖像的像素分布，確保忠實重建。此外，我們結合了一個基于ControlNet的魯棒特征提取器來增強輸出的輸出感知質量。

•

在推理過程中，我們的模型能夠生成高質量和高保真的圖像，同時保留LR輸入的內容，并顯著提高視覺質量，如圖1所示。實驗結果表明，所提出的Real-ISR模型在多樣化的場景內容中始終表現出強大的性能，生成了如圖2所示的感知上吸引人的超分辨率圖像。

部分片段

基于GAN的現實世界圖像超分辨率

基于對抗訓練的方法能夠從純噪聲生成圖像，已成功應用于Real-ISR[2], [16], [17], [43]，以處理復雜的退化情況，超越了傳統的深度學習技術[44], [45], [46], [47], [48], [49], [50]。開創性的工作如BSRGAN[2]和Real-ESRGAN[21]已經證明，即使在嚴重的退化情況下，通過對抗訓練，圖像恢復也變得更加有效。

問題表述

在退化過程中，圖像

經歷了一個退化操作

，結果產生了一個LR圖像

。這種退化過程可能由單一變換或多個退化的組合組成，例如

。在基于擴散模型的圖像恢復中，退化過程通常被建模為高斯噪聲擾動的組合。然后，恢復過程涉及估計并隨后去除高斯噪聲以恢復高質量圖像。

實驗

為了展示LGCAA的有效性，我們展示了定性比較結果以及廣泛的定量結果。我們在類似現有方法[2], [21]的RealSR數據集上展示了我們的實驗。

結論

在這項工作中，我們介紹了一種高效的實際世界圖像超分辨率方法，它有效地增強了原始內容，同時保持了視覺上的連貫性。我們的方法旨在保持原始圖像的完整性，而不引入可能導致不需要的偽影的額外細節。由于高頻成分有助于更精細的細節，過度強調它們在仔細檢查時可能會引入失真。為了解決這個問題，我們的方法

關于寫作過程中生成式AI和AI輔助技術的聲明

在準備這項工作時，作者使用ChatGPT來輔助語法、拼寫、詞匯選擇和文本潤色。使用該工具/服務后，作者根據需要審查和編輯了內容，并對出版物的內容負全責。

CRediT作者貢獻聲明

桑查爾·帕利特（Sanchar Palit）：撰寫——原始草稿、資源、方法論、調查、形式分析、數據管理、概念化。蘇巴希斯·喬杜里（Subhasis Chaudhuri）：撰寫——審閱與編輯、監督、概念化。比普拉布·班納吉（Biplab Banerjee）：撰寫——審閱與編輯、驗證、監督、概念化。

利益沖突聲明

作者聲明以下可能被視為潛在利益沖突的財務利益/個人關系：

桑查爾·帕利特報告稱獲得了印度孟買印度理工學院的財政支持。如果有其他作者，他們聲明沒有已知的財務利益或個人關系可能影響本文報告的工作。

桑查爾·帕利特（Sanchar Palit）于2016年從印度西孟加拉邦的Jalpaiguri政府工程學院獲得學士學位，2019年從印度理工學院（IIT）Kharagpur獲得視覺信息處理和嵌入式系統工程碩士學位。他目前正在印度理工學院孟買分校的電氣工程系攻讀博士學位。他的研究興趣包括擴散模型、圖像和視頻的隨機建模、持續學習、單圖像3D

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號