亚洲最大成人网站,成人精诚精品,亚洲欧美综合

首頁今日動態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價(jià)專欄技術(shù)快訊免費(fèi)試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

DM-SR：基于擴(kuò)散的多模態(tài)語義恢復(fù)技術(shù)在語義通信系統(tǒng)中的應(yīng)用

《Pattern Recognition》：DM-SR: Diffusion-based Multimodal Semantic Restoration within Semantic Communication Systems

【字體：大中小】 時間：2026年03月02日 來源：Pattern Recognition 7.6

編輯推薦：

　　語義通信中提出DM-SR框架，通過語義提取知識庫（SE-KB）與恢復(fù)知識庫（SR-KB）的協(xié)同工作，利用多模態(tài)大模型提取高階語義特征并基于擴(kuò)散模型進(jìn)行高質(zhì)量圖像恢復(fù)，顯著提升通信受限下的語義重建效果。

劉磊|邢家正

中國西北工業(yè)大學(xué)宇航學(xué)院

摘要

語義通信旨在通過利用發(fā)送方和接收方之間預(yù)先共享的知識，以最小的通信成本傳輸與任務(wù)相關(guān)的語義信息。其中，語義恢復(fù)是從高度壓縮的傳輸中恢復(fù)有意義內(nèi)容的關(guān)鍵下游任務(wù)。最近的人工智能驅(qū)動的知識庫在獲取廣泛的世界知識方面表現(xiàn)出強(qiáng)大的能力，這為打破由有限編碼信息造成的性能瓶頸提供了潛力。然而，大多數(shù)現(xiàn)有的語義通信方法沒有充分利用這些知識庫，主要依賴低級別的編碼信號進(jìn)行重建。為了解決這個問題，我們提出了一個基于擴(kuò)散的多模態(tài)語義恢復(fù)框架（DM-SR）。DM-SR整合了兩個人工智能驅(qū)動的知識庫：一個用于從原始圖像中提取多模態(tài)高級語義的語義提取知識庫（SE-KB），以及一個利用結(jié)構(gòu)和紋理先驗(yàn)在提取的語義信息基礎(chǔ)上重建壓縮圖像的語義恢復(fù)知識庫（SR-KB）。通過聯(lián)合利用傳輸?shù)奶卣骱屯獠空Z義知識，DM-SR在通信限制下顯著提高了語義恢復(fù)的質(zhì)量。在遙感數(shù)據(jù)集上的廣泛實(shí)驗(yàn)驗(yàn)證了所提出框架的有效性。

引言

僅使用最少的數(shù)據(jù)在通信中傳輸豐富的語義信息是一個活躍的研究領(lǐng)域，即語義通信（SC）[1]、[2]、[3]、[4]、[5]。通常，SC系統(tǒng)由三個組件組成：編碼器、解碼器和知識庫。具體來說，編碼器用于壓縮傳輸?shù)男畔ⅲ獯a器用于解釋接收到的傳輸并恢復(fù)原始數(shù)據(jù)。與傳統(tǒng)的通信系統(tǒng)不同，額外的知識庫可以理解和推斷語義信息。它可以根據(jù)從大量世界知識中學(xué)習(xí)到的知識來獲取傳輸信息的先驗(yàn)知識。在這項(xiàng)工作中，我們使用常見的下采樣作為編碼器。我們的主要目標(biāo)是利用知識庫與編碼的傳輸信息相結(jié)合，以最大化壓縮圖像的語義級恢復(fù)，這是評估語義通信系統(tǒng)的基本下游任務(wù)，稱為語義恢復(fù)（SR）。

隨著人工智能的快速發(fā)展，提出了許多基于人工智能的語義通信方法。然而，大多數(shù)現(xiàn)有方法，如TOSCN [3]、DeepSC-ST [2] 和 DeepJSCC-V [4]，主要依賴于編碼器-解碼器架構(gòu)來提取和解釋低級語義信息，即像素級特征，而知識庫在利用高級語義信息方面的潛力仍然很大程度上未被探索。由于編碼過程不可避免地會導(dǎo)致信息丟失，僅依賴編碼信號進(jìn)行重建會帶來明顯的性能瓶頸，這在嚴(yán)重的通信限制下從根本上限制了恢復(fù)質(zhì)量。最近在多模態(tài)模型方面的進(jìn)展展示了在理解和推理多模態(tài)數(shù)據(jù)方面的強(qiáng)大能力，產(chǎn)生了捕捉豐富世界知識的高級語義表示。這一觀察促使我們將此類模型引入語義通信系統(tǒng)作為外部知識庫，以提高語義恢復(fù)的質(zhì)量上限。從這個角度來看，語義恢復(fù)不應(yīng)僅依賴于低級語義信息，還應(yīng)利用從共享知識庫中檢索到的高級語義線索，即使在傳輸?shù)男畔?yán)重退化時也能實(shí)現(xiàn)語義上的一致恢復(fù)。

我們認(rèn)為，在語義通信系統(tǒng)中，發(fā)送方和接收方之間共享的知識庫可以概念性地分為兩類：一類是從原始數(shù)據(jù)中提取語義信息，另一類是從壓縮數(shù)據(jù)中恢復(fù)語義信息。對于語義提取，可以使用多模態(tài)大規(guī)模模型（如Tag2Text [6]、BLIP [7] 和 RAM [8]）從原始高分辨率圖像中獲取高級語義信息，這些模型可以從視覺輸入生成語義屬性和文本描述。對于語義恢復(fù)，現(xiàn)有的語義通信方法 [1]、[3]、[4] 通常使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）作為直接重建模塊，而沒有明確將它們視為知識庫。相比之下，我們利用預(yù)訓(xùn)練的擴(kuò)散模型（例如 Stable Diffusion [9]）作為語義恢復(fù)知識庫，這些模型從大規(guī)模真實(shí)世界數(shù)據(jù)集（如 ImageNet [10] 和 FFHQ [11]）中學(xué)習(xí)到了豐富的結(jié)構(gòu)和紋理先驗(yàn)。此外，基于主體的擴(kuò)散模型 [12]、[13]、[14] 通過條件引導(dǎo)實(shí)現(xiàn)可控的生成，確保恢復(fù)的圖像與原始內(nèi)容之間的語義一致性。與基于 CNN 的解碼器相比，基于擴(kuò)散的模型可以利用它們的先驗(yàn)知識來恢復(fù)語義相關(guān)的結(jié)構(gòu)，即使壓縮信號極其有限。

基于上述觀察，我們提出了一個新穎的基于擴(kuò)散的多模態(tài)語義恢復(fù)框架，稱為 DM-SR，用于語義通信系統(tǒng)。DM-SR 不是引入新的骨干模型，而是關(guān)注一種新的語義通信公式和知識庫的系統(tǒng)級集成。具體來說，我們將框架明確分解為兩個組件：一個語義提取知識庫（SE-KB）和一個語義恢復(fù)知識庫（SR-KB），它們在語義傳輸和恢復(fù)中扮演不同的角色。SE-KB 負(fù)責(zé)從原始圖像中提取和壓縮多模態(tài)高級語義信息，包括語義特征和標(biāo)簽式提示，這些信息與壓縮圖像一起傳輸，以減少通信開銷，同時保留必要的語義信息。SR-KB 作為語義解碼器，在恢復(fù)過程中通過聯(lián)合利用傳輸信號和外部語義先驗(yàn)來補(bǔ)償信息丟失。在我們的實(shí)現(xiàn)中，我們采用 RAM [8]、ControlNet [12] 和 GLIGEN [13] 作為 SE-KB 和 SR-KB 的代表性實(shí)例，以證明所提出框架的有效性。這些模型在統(tǒng)一的語義通信框架內(nèi)被重新利用，而不是獨(dú)立使用。我們提出以下貢獻(xiàn)：

•

我們提出了一個基于擴(kuò)散的多模態(tài)語義恢復(fù)框架 DM-SR，通過系統(tǒng)級集成知識庫引入了一種原則性的語義通信公式。

•

我們將框架明確分解為語義提取知識庫（SE-KB）和語義恢復(fù)知識庫（SR-KB），在通信限制下為語義提取、傳輸和恢復(fù)分配互補(bǔ)的角色。

•

在遙感數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明，我們的方法可以實(shí)現(xiàn)出色的性能。

部分摘錄

語義通信

大多數(shù)語義通信（SC）系統(tǒng)采用帶有共享知識庫的編碼器-解碼器架構(gòu)，其中編碼器將源數(shù)據(jù)壓縮成語義表示，解碼器使用接收到的特征和先驗(yàn)知識重建與任務(wù)相關(guān)的信息。早期的基于深度學(xué)習(xí)的 SC 方法 [2]、[3]、[4]、[5] 主要關(guān)注學(xué)習(xí)緊湊的語義表示，但受到編碼引起的信息丟失和有限性的固有約束

概述

在這封信中，我們提出了一個名為 DM-SR 的新穎框架，用于語義通信系統(tǒng)中的有效語義恢復(fù)。我們使用常見的下采樣作為編碼器來壓縮原始圖像以進(jìn)行傳輸，并專注于利用傳輸?shù)男畔⒑凸蚕淼闹R庫在語義層面恢復(fù)圖像。如圖 1 所示，所提出的 DM-SR 包括兩個關(guān)鍵組件：1）語義提取知識庫（SE-KB）和 2）語義恢復(fù)知識庫

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集。我們在一個包含 15,000 張圖像的大規(guī)模遙感數(shù)據(jù)集上進(jìn)行了廣泛的定性和定量評估，這些圖像涵蓋了各種真實(shí)世界場景，包括機(jī)場、海港、城市地區(qū)和農(nóng)村地區(qū)等復(fù)雜環(huán)境。數(shù)據(jù)集被分為 12,000 對用于訓(xùn)練，3,000 對用于測試，以確保評估的公平性和可靠性。每張?jiān)紙D像的分辨率為 512×512，并沿兩個方向下了四倍的比例

結(jié)論

在這封信中，我們提出了一個基于擴(kuò)散的多模態(tài)語義恢復(fù)框架 DM-SR，用于在通信限制下的語義恢復(fù)。核心貢獻(xiàn)在于整合了兩個人工智能驅(qū)動的知識庫：一個語義提取知識庫（SE-KB）和一個語義恢復(fù)知識庫（SR-KB）。SE-KB 從原始圖像中提取多樣化的語義線索，包括高級語義特征和標(biāo)簽式提示，而 SR-KB 利用這些語義信息