欧美精品在线视频,黑人一区,3P视频网站视频网站视频网站在线播放

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

基于神經網絡的視頻編碼中，具有壓縮偽影檢測能力的增量學習方法

《Neurocomputing》：Compression artifact-aware incremental learning for neural network-based video coding

【字體：大中小】 時間：2026年03月01日 來源：Neurocomputing 6.5

編輯推薦：

　　壓縮感知的增量學習與神經參考幀合成研究。通過構建多級壓縮數據集并采用恒定量化參數差距的增量學習策略，有效緩解了傳統神經視頻編碼模型訓練中的壓縮不均衡問題，顯著提升了VVC框架下參考幀生成的編碼效率，在低延遲和高隨機訪問配置中分別實現4.64%-12.31%的B-j metric速率下降。

秦啟普|Jung Cheolkon

西安電子科技大學電子工程學院，中國西安710071

摘要

壓縮偽像是視頻編碼中固有的現象，它們會顯著影響基于神經網絡的視頻編碼（NNVC）工具的訓練動態和性能。在本文中，我們提出了一種基于一致量化參數間隔（QPG）的壓縮偽像感知增量學習（CAIL）方法，稱為QPG-CAIL。與傳統的NNVC工具訓練方法不同，后者使用未壓縮的原始數據作為標簽，QPG-CAIL使用壓縮偽像較多的數據作為輸入，而壓縮偽像較少的數據作為標簽，同時保持兩者之間的一致QPG。為此，我們構建了具有不同失真水平的多個訓練數據集，包括高失真、低失真和無失真的情況，以從小到大的QPG逐步訓練NNVC工具，并全面分析其對編碼效率的影響。為了驗證QPG-CAIL在NNVC中的有效性，我們引入了一個統一的參考幀合成網絡（URFS-Net），該網絡集成在VVC中，位于解碼圖像緩沖區（DPB）和參考幀列表（RPL）之間，用于生成VVC幀間預測的神經參考幀。大量實驗表明，通過提出的QPG-CAIL訓練的URFS-Net在參考幀生成方面達到了最先進的性能。對于隨機訪問（RA）/低延遲B（LB）配置，與NNVC-12.0相比，它平均降低了{4.64%/3.21%（Y），5.15%/4.80%（U），6.01%/6.17%（V）的Bj?ntegaard Delta率（BD-rate）；與VTM-15.0相比，降低了{6.44%/6.07%（Y），12.80%/12.01%（U），12.31%/11.49%（V）的BD-rate。

引言

傳統的視頻編碼標準[1]、[2]、[3]在平衡壓縮效率和計算復雜性方面面臨著日益增長的挑戰。在這種情況下，基于混合人工智能（AI）的視頻編碼作為一種有前景的范式應運而生，它將數據驅動的深度學習技術[4]、[5]、[6]、[7]、[8]與傳統的基于塊的編碼框架相結合。神經參考幀生成（NRFG）旨在合成高質量的參考幀，以增強傳統視頻編解碼器中的幀間預測。作為新興的基于神經網絡的視頻編碼（NNVC）工具[4]、[5]、[6]、[9]、[10]、[11]、[12]、[13]、[14]的核心組成部分，NRFG通過利用深度學習捕捉復雜的運動和上下文信息，從而在提高編碼效率方面發揮著關鍵作用。最近，深度神經網絡（DNN）顯著推進了NRFG方法[6]、[9]、[10]、[15]、[16]的發展，研究主要集中在設計更有效的光流估計、特征對齊和幀合成架構上。

然而，NRFG以及其他NNVC工具在實際視頻編碼系統中的有效性仍然受到訓練數據質量的嚴重影響。通常，當前幀的參考幀是由存儲在解碼圖像緩沖區（DPB）中的重建相鄰幀生成的。然而，由于視頻壓縮的失真特性，這些重建幀不可避免地包含不同程度的壓縮偽像，如塊狀偽像、振鈴偽像和模糊偽像。這些偽像不僅降低了參考幀的視覺質量，還扭曲了運動線索和結構一致性——這兩者是神經網絡模型進行準確幀合成的關鍵因素。此外，大多數現有的NNVC工具[11]、[12]、[17]、[18]，包括NRFG模型[6]、[9]、[10]、[15]、[16]，都是使用帶有壓縮偽像的重建數據作為輸入，并使用相應的原始未壓縮數據作為監督信號（即真實值）進行訓練的。這種傳統的訓練策略在壓縮輸入和原始未壓縮標簽之間引入了顯著的量化參數（QP）不平衡。具體來說，由于QP設置直接決定了編碼器中的壓縮程度，因此在較高QP下重建的數據表現出更嚴重的壓縮偽像和更低的質量，從而導致與相應未壓縮數據相比在紋理和結構細節上的更大損失。在訓練NNVC工具時，輸入數據通常在22、27、32、37和42五個QP值下進行壓縮，而監督標簽則是未壓縮數據，從而導致訓練過程中的QP不平衡。例如，當輸入在QP 22下壓縮時，其與原始未壓縮標簽的差異較小；而當輸入在QP 42下壓縮時，與未壓縮標簽的差異則變得相當大。QP引起的不平衡不僅限制了網絡的表示能力，還影響了其對實際視頻編碼的泛化能力。

為了解決這些限制，本研究系統地探討了訓練數據集中不同水平的壓縮偽像如何影響NNVC工具的泛化性能。如圖1所示，我們提出了一種基于一致QP間隔的壓縮偽像感知增量學習策略，稱為QPG-CAIL。與傳統的訓練方法[6]、[9]、[19]、[20]、[21]使用無偽像的真實值不同，提出的QPG-CAIL使用較高QP值的壓縮數據作為輸入，較低QP值的壓縮數據作為標簽。同時，隨著QP間隔的增加，增量學習使網絡能夠更好地捕捉壓縮偽像的潛在分布和轉換模式，從而增強其在各種編碼場景下的泛化能力。為了在這些條件下支持參考幀生成，我們進一步提出了一個統一的參考幀合成網絡（URFS-Net），該網絡在RA和LB配置下具有相同的架構，并集成在VTM中。如圖2所示，URFS-Net由三個關鍵模塊組成：1）一個分層特征提取器，用于從輸入幀中捕獲多尺度的空間和時間信息；2）一個自適應尺度的流估計器，用于在適應不同運動幅度和空間分辨率的同時預測粗略到精細的運動場；3）一個變形幀增強器，用于增強變形預測以恢復結構細節并抑制孔洞效應。最后，我們通過在具有低失真、高失真和無失真的數據集上訓練URFS-Net進行了全面研究。實驗表明，通過提出的QPG-CAIL訓練的URFS-Net在VVC框架內一致地實現了卓越的參考幀生成性能，從而為視頻壓縮模型的訓練策略提供了新的見解和方法。

章節片段

視頻幀插值和外推

視頻幀插值和外推（VFI和VFE）旨在根據觀察到的幀合成中間幀或未來幀。最近的進展[22]、[23]、[24]、[25]利用深度學習技術進行流估計、特征變形和上下文融合。雖然這些任務和神經參考幀生成（NRFG）的目標都是從已知上下文中合成未見過的幀，但它們的目的和約束條件有很大的不同。

用于學習的一致QP間隔

現有的NNVC工具[6]、[9]、[10]、[11]、[12]、[15]、[16]、[31]主要關注于架構創新，如多尺度設計、運動細化和注意力機制，以提高傳統編解碼器的編碼效率。然而，它們沒有考慮帶有壓縮偽像的數據本身對NNVC工具訓練和性能的影響。如圖1上半部分和圖3(a)所示，傳統的訓練范式[6]、[9]、[10]、[11]、[12]、[15]

訓練設置

所提出的URFS-Net在PyTorch框架中實現，并在具有24 GB內存的NVIDIA RTX 4090 GPU上進行了訓練。Vimeo-90K三元組數據集[34]包含73,171個原始三元組，分辨率為448×256。所有原始的8位RGB444三元組圖像使用FFmpeg轉換為10位YUV420視頻序列。關于具有不同壓縮偽像水平的多個訓練數據集的構建細節在第3.2節中提供。

結論

在本文中，我們提出了一種基于一致QP間隔（QPG-CAIL）的壓縮偽像感知增量學習范式，該范式明確模擬了不同偽像水平對NRFG的影響。通過逐步將監督標簽與壓縮輸入的分布對齊，所提出的方法有效地緩解了傳統訓練方案依賴于無偽像標簽所導致的表示差距。全面分析表明，選擇適當的

CRediT作者貢獻聲明

秦啟普：撰寫——原始草稿、可視化、驗證、軟件、方法論、調查、形式分析、數據管理、概念化。Jung Cheolkon：撰寫——審閱與編輯、可視化、監督、資源管理、項目管理、方法論、調查、資金獲取、形式分析、概念化。

利益沖突聲明

作者聲明他們沒有已知的可能會影響本文所述工作的財務利益或個人關系。

致謝

本工作得到了中國國家自然科學基金（項目編號62111540272）的支持。

秦啟普于2017年在中國寧夏大學獲得通信工程學士學位。他目前正在中國西安電子科技大學攻讀電子工程博士學位。他的主要研究興趣包括圖像和視頻處理、視頻編碼以及虛擬現實。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號