TCSAF:基于參考的視頻超分辨率的可學習RefBank
《Expert Systems with Applications》:TCSAF: Learnable RefBank for Reference-based Video Super-Resolution
【字體:
大
中
小
】
時間:2026年03月03日
來源:Expert Systems with Applications 7.5
編輯推薦:
參考幀視頻超分辨率通過動態更新參考特征庫,結合語義相似性和運動量檢測的雙重機制,以及語義感知的錯誤校正和頻率感知的動態替換策略,有效解決靜態參考幀導致的指導失效問題,實驗表明在REDS4和Vid4數據集上PSNR分別達到32.62 dB和28.92 dB,優于現有方法。
劉美琴|姬厚國|唐琪|姚超|金健|趙瑤
北京交通大學信息科學研究所,北京,100044,中國
摘要
基于參考的視頻超分辨率(VSR)旨在通過使用高分辨率參考圖像從低分辨率幀中恢復細節來提升視頻質量。然而,現有方法主要依賴于靜態參考圖像,這些圖像無法捕捉視頻內容和運動的時間動態性,導致參考引導隨時間退化。為了解決這個問題,我們提出了時間一致性和語義感知框架(TCSAF),這是一種新的基于參考的VSR方法,它利用初始參考圖像和之前超分辨率的幀來進行動態的、長期的引導。具體來說,我們引入了一種基于語義相似性和光流幅度的雙指標參考檢測機制,僅在出現顯著外觀或運動變化時觸發對參考狀態的更新。為了防止在更新過程中重建誤差的傳播,我們采用了語義感知誤差校正策略(SECS),該策略通過交叉注意力將超分辨率特征與參考語義對齊,并使用調制卷積來抑制誤差積累。此外,為了豐富RefBank的高頻細節,我們設計了頻率感知動態替換策略(FDRS),該策略使用可微分的Gumbel采樣來識別最重要的k個特征通道,并通過頻率-空間注意力來增強選定的通道。實驗表明,與最先進的方法相比,我們的方法在定量和定性性能上都有所提升。具體來說,TCSAF在REDS4數據集上的PSNR達到了32.62 dB,在Vid4數據集上達到了28.92 dB,比之前的最先進方法提高了0.47 dB。
引言
視頻超分辨率(VSR)旨在通過將低分辨率(LR)視頻轉換為高分辨率(HR)視頻來提升視覺質量。除了常規的視頻增強外,VSR在特定領域也展示了顯著的價值。例如,最近的研究已經成功地將VSR技術擴展到面部超分辨率(Jiang等人,2020年)以恢復面部身份、衛星視頻增強(Xiao、Yuan、Jiang、Chen、Wang、Lin,2025年;Xiao、Yuan、Jiang、Jin、He、Zhang、Lin,2024b年)用于遙感分析,以及動畫修復(Wu、Wang、Li和Shan,2022年)以恢復傳統內容。盡管傳統VSR方法通過先進的架構和對齊策略取得了顯著進展,但高保真視頻幀的重建仍然受到細節嚴重退化和幀間復雜運動的影響。
為了減輕細節恢復的難度,基于參考的VSR試圖結合外部HR幀作為信息性先驗來提升重建視頻的質量。Lee等人(2022年)首次在超寬LR視頻中使用了基于參考的增強技術,利用了三攝像頭設置中的輔助廣角和長焦輸入。此后,一些方法(Zhang、Wang、Zhang和Zuo,2024年;Zou、Suganuma和Okatani,2025年)被提出用于三攝像頭或雙攝像頭設置中的基于參考的超分辨率。然而,如圖1(a)所示,這些方法要求每個LR幀與其HR參考之間有一一對應的關系,這限制了它們在常規視頻中的應用,因為這些參考在常規視頻中可能不可用。為了放寬這一限制,最近的方法采用了多對一匹配策略而不是一對一匹配策略,從而減少了所需的參考幀數量,如圖1(b)所示。Kim等人(2023年)使用了帶有中心參考幀的滑動窗口,Jiang等人(2023年)使用了視頻的第一幀作為參考。然而,這些方法沒有明確建模幀間特征的時間動態性。參考圖像的靜態性質是一個關鍵缺點,因為在LR幀經歷時間變化時,參考圖像保持不變。這種時間不對齊逐漸降低了高頻重建的保真度,最終影響了整體的超分辨率質量。
LR幀與參考幀之間的有限匹配精度需要自適應地細化參考特征,以確保它們在整個視頻序列中的相關性。期望細化的特征能夠保留豐富的紋理和對當前幀的強上下文相關性。這些要求提出了兩個關鍵問題:何時應該細化參考特征,特別是在它們與當前幀的相似性不足的情況下?如何設計細化過程以保留最具信息量的內容,同時避免引入偽影?
為了解決上述兩個問題,如圖1(c)所示,我們構建了一個可學習的參考特征庫(RefBank),以保存并動態更新適當的特征,以指導每個幀的超分辨率。具體來說,引入了雙指標參考檢測機制來檢測場景語義(例如,對象類別或上下文區域)和運動(通過光流測量)的顯著變化。預訓練的語義提取器提取語義特征并計算它們的余弦相似度,而光流模型F(?·?)估計連續幀之間的運動幅度。這些線索通過加權求和結合在一起,當超過閾值時啟動RefBank的細化,從而將當前幀識別為關鍵幀。然而,直接將超分辨率特征注入RefBank可能會放大在時間傳播過程中累積的重建誤差。為了解決這個問題,提出了語義感知誤差校正策略(SECS),通過歷史特征和參考派生的語義標記之間的交叉注意力來動態校正語義不對齊。通過自適應的通道級調制和殘差融合進一步增強了細化特征,有效抑制了誤差積累。為了進一步提高RefBank中參考特征的表示質量,設計了頻率感知動態替換策略(FDRS)。在FDRS中,基于全局激活響應評估通道重要性,并通過可微分的Gumbel采樣選擇最重要的k個特征通道。使用融合的頻率-空間注意力模塊增強選定的特征,并替換RefBank中的低置信度條目,從而保留高頻結構細節。
總結來說,我們的貢獻如下:
- •
我們提出了TCSAF框架,該框架從單個參考圖像初始化參考特征庫(RefBank),并使用之前超分辨率的幀動態更新它。它結合了基于語義相似性和光流的雙指標參考檢測機制,以確保對視頻場景變化的穩健適應。
- •
我們提出了語義感知誤差校正策略(SECS),通過歷史特征和參考語義之間的交叉注意力動態校正語義不對齊。通過自適應調制和殘差融合增強細化特征,有效抑制誤差積累。
- •
我們開發了頻率感知動態替換策略,通過學習到的重要性和頻率-空間注意力選擇和細化最重要的k個特征通道,增強了參考特征庫的區分能力。
部分摘錄
視頻超分辨率
受網絡架構和對齊策略創新的推動,VSR繼續快速發展。在架構上,VSR方法分為并行框架和循環框架。并行框架主要遵循兩種范式:基于滑動窗口的方法和基于變壓器的方法。Wang等人(2019年)提出了一個并行框架,該框架并行處理多個幀,并使用可變形卷積進行粗到細的對齊。
概述
給定一個參考圖像IRef,TCSAF旨在從LR輸入序列重建HR視頻序列。如圖2所示,每個HR幀是通過將相應的LR幀上采樣一個比例因子s生成的。這里,C, H和W分別表示每個LR幀的通道數、高度和寬度,而N表示視頻序列中的總幀數。
最初,參考特征庫(RefBank)
數據集和指標
為了進行全面評估,采用了多種基準測試來評估在標準、現實世界和語義有意義的場景中的性能。數據集包括REDS(Nah等人,2019年)、REDS4(Nah等人,2019年)、Vid4(Liu和Sun,2013年)、LVOS(Hong等人,2023年)和RealMCVSR(Lee等人,2022年)。
REDS4和Vid4被用作在4×雙三次(BI)退化下的標準測試集。RealMCVSR包含137個訓練樣本、8個驗證樣本和16個測試樣本,由三攝像頭系統捕獲
每個組件的效果
為了驗證每個提出組件的有效性,我們通過逐步將它們集成到基線模型中進行消融研究。結果如表5所示。具體來說,模型1作為基線,不包括語義感知誤差校正策略(SECS)和頻率感知動態替換策略(FDRS)。模型2在此基線的基礎上,用超分辨率幀替換了參考幀。模型3在基線的基礎上進行了擴展
結論
在本文中,我們提出了時間一致性和語義感知框架(TCSAF)用于基于參考的視頻超分辨率。它引入了一個自適應的參考特征庫,該庫使用學習到的權重和雙指標場景變化檢測動態細化特征,從而能夠穩健地適應場景變化。為了解決時間特征傳播中的誤差積累問題,我們設計了語義感知誤差校正策略,該策略對歷史超分辨率特征進行對齊
作者致謝聲明
劉美琴:概念化、可視化、資金獲取、撰寫 - 審稿與編輯。
姬厚國:概念化、方法論、軟件、驗證、形式分析、調查、數據管理、撰寫 - 原稿。
唐琪:方法論、可視化、撰寫 - 審稿與編輯。
姚超:方法論、可視化、撰寫 - 審稿與編輯。
金健:監督、項目管理、資金獲取、撰寫 - 審稿與編輯。
趙瑤:監督、項目
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號