<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        DM-SR:基于擴(kuò)散的多模態(tài)語義恢復(fù)技術(shù)在語義通信系統(tǒng)中的應(yīng)用

        《Pattern Recognition》:DM-SR: Diffusion-based Multimodal Semantic Restoration within Semantic Communication Systems

        【字體: 時間:2026年03月02日 來源:Pattern Recognition 7.6

        編輯推薦:

          語義通信中提出DM-SR框架,通過語義提取知識庫(SE-KB)與恢復(fù)知識庫(SR-KB)的協(xié)同工作,利用多模態(tài)大模型提取高階語義特征并基于擴(kuò)散模型進(jìn)行高質(zhì)量圖像恢復(fù),顯著提升通信受限下的語義重建效果。

          
        劉磊|邢家正
        中國西北工業(yè)大學(xué)宇航學(xué)院

        摘要

        語義通信旨在通過利用發(fā)送方和接收方之間預(yù)先共享的知識,以最小的通信成本傳輸與任務(wù)相關(guān)的語義信息。其中,語義恢復(fù)是從高度壓縮的傳輸中恢復(fù)有意義內(nèi)容的關(guān)鍵下游任務(wù)。最近的人工智能驅(qū)動的知識庫在獲取廣泛的世界知識方面表現(xiàn)出強(qiáng)大的能力,這為打破由有限編碼信息造成的性能瓶頸提供了潛力。然而,大多數(shù)現(xiàn)有的語義通信方法沒有充分利用這些知識庫,主要依賴低級別的編碼信號進(jìn)行重建。為了解決這個問題,我們提出了一個基于擴(kuò)散的多模態(tài)語義恢復(fù)框架(DM-SR)。DM-SR整合了兩個人工智能驅(qū)動的知識庫:一個用于從原始圖像中提取多模態(tài)高級語義的語義提取知識庫(SE-KB),以及一個利用結(jié)構(gòu)和紋理先驗(yàn)在提取的語義信息基礎(chǔ)上重建壓縮圖像的語義恢復(fù)知識庫(SR-KB)。通過聯(lián)合利用傳輸?shù)奶卣骱屯獠空Z義知識,DM-SR在通信限制下顯著提高了語義恢復(fù)的質(zhì)量。在遙感數(shù)據(jù)集上的廣泛實(shí)驗(yàn)驗(yàn)證了所提出框架的有效性。

        引言

        僅使用最少的數(shù)據(jù)在通信中傳輸豐富的語義信息是一個活躍的研究領(lǐng)域,即語義通信(SC)[1]、[2]、[3]、[4]、[5]。通常,SC系統(tǒng)由三個組件組成:編碼器、解碼器和知識庫。具體來說,編碼器用于壓縮傳輸?shù)男畔ⅲ獯a器用于解釋接收到的傳輸并恢復(fù)原始數(shù)據(jù)。與傳統(tǒng)的通信系統(tǒng)不同,額外的知識庫可以理解和推斷語義信息。它可以根據(jù)從大量世界知識中學(xué)習(xí)到的知識來獲取傳輸信息的先驗(yàn)知識。在這項(xiàng)工作中,我們使用常見的下采樣作為編碼器。我們的主要目標(biāo)是利用知識庫與編碼的傳輸信息相結(jié)合,以最大化壓縮圖像的語義級恢復(fù),這是評估語義通信系統(tǒng)的基本下游任務(wù),稱為語義恢復(fù)(SR)。
        隨著人工智能的快速發(fā)展,提出了許多基于人工智能的語義通信方法。然而,大多數(shù)現(xiàn)有方法,如TOSCN [3]、DeepSC-ST [2] 和 DeepJSCC-V [4],主要依賴于編碼器-解碼器架構(gòu)來提取和解釋低級語義信息,即像素級特征,而知識庫在利用高級語義信息方面的潛力仍然很大程度上未被探索。由于編碼過程不可避免地會導(dǎo)致信息丟失,僅依賴編碼信號進(jìn)行重建會帶來明顯的性能瓶頸,這在嚴(yán)重的通信限制下從根本上限制了恢復(fù)質(zhì)量。最近在多模態(tài)模型方面的進(jìn)展展示了在理解和推理多模態(tài)數(shù)據(jù)方面的強(qiáng)大能力,產(chǎn)生了捕捉豐富世界知識的高級語義表示。這一觀察促使我們將此類模型引入語義通信系統(tǒng)作為外部知識庫,以提高語義恢復(fù)的質(zhì)量上限。從這個角度來看,語義恢復(fù)不應(yīng)僅依賴于低級語義信息,還應(yīng)利用從共享知識庫中檢索到的高級語義線索,即使在傳輸?shù)男畔?yán)重退化時也能實(shí)現(xiàn)語義上的一致恢復(fù)。
        我們認(rèn)為,在語義通信系統(tǒng)中,發(fā)送方和接收方之間共享的知識庫可以概念性地分為兩類:一類是從原始數(shù)據(jù)中提取語義信息,另一類是從壓縮數(shù)據(jù)中恢復(fù)語義信息。對于語義提取,可以使用多模態(tài)大規(guī)模模型(如Tag2Text [6]、BLIP [7] 和 RAM [8])從原始高分辨率圖像中獲取高級語義信息,這些模型可以從視覺輸入生成語義屬性和文本描述。對于語義恢復(fù),現(xiàn)有的語義通信方法 [1]、[3]、[4] 通常使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為直接重建模塊,而沒有明確將它們視為知識庫。相比之下,我們利用預(yù)訓(xùn)練的擴(kuò)散模型(例如 Stable Diffusion [9])作為語義恢復(fù)知識庫,這些模型從大規(guī)模真實(shí)世界數(shù)據(jù)集(如 ImageNet [10] 和 FFHQ [11])中學(xué)習(xí)到了豐富的結(jié)構(gòu)和紋理先驗(yàn)。此外,基于主體的擴(kuò)散模型 [12]、[13]、[14] 通過條件引導(dǎo)實(shí)現(xiàn)可控的生成,確保恢復(fù)的圖像與原始內(nèi)容之間的語義一致性。與基于 CNN 的解碼器相比,基于擴(kuò)散的模型可以利用它們的先驗(yàn)知識來恢復(fù)語義相關(guān)的結(jié)構(gòu),即使壓縮信號極其有限。
        基于上述觀察,我們提出了一個新穎的基于擴(kuò)散的多模態(tài)語義恢復(fù)框架,稱為 DM-SR,用于語義通信系統(tǒng)。DM-SR 不是引入新的骨干模型,而是關(guān)注一種新的語義通信公式和知識庫的系統(tǒng)級集成。具體來說,我們將框架明確分解為兩個組件:一個語義提取知識庫(SE-KB)和一個語義恢復(fù)知識庫(SR-KB),它們在語義傳輸和恢復(fù)中扮演不同的角色。SE-KB 負(fù)責(zé)從原始圖像中提取和壓縮多模態(tài)高級語義信息,包括語義特征和標(biāo)簽式提示,這些信息與壓縮圖像一起傳輸,以減少通信開銷,同時保留必要的語義信息。SR-KB 作為語義解碼器,在恢復(fù)過程中通過聯(lián)合利用傳輸信號和外部語義先驗(yàn)來補(bǔ)償信息丟失。在我們的實(shí)現(xiàn)中,我們采用 RAM [8]、ControlNet [12] 和 GLIGEN [13] 作為 SE-KB 和 SR-KB 的代表性實(shí)例,以證明所提出框架的有效性。這些模型在統(tǒng)一的語義通信框架內(nèi)被重新利用,而不是獨(dú)立使用。我們提出以下貢獻(xiàn):
      3. 我們提出了一個基于擴(kuò)散的多模態(tài)語義恢復(fù)框架 DM-SR,通過系統(tǒng)級集成知識庫引入了一種原則性的語義通信公式。
      4. 我們將框架明確分解為語義提取知識庫(SE-KB)和語義恢復(fù)知識庫(SR-KB),在通信限制下為語義提取、傳輸和恢復(fù)分配互補(bǔ)的角色。
      5. 在遙感數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明,我們的方法可以實(shí)現(xiàn)出色的性能。
      6. 部分摘錄

        語義通信

        大多數(shù)語義通信(SC)系統(tǒng)采用帶有共享知識庫的編碼器-解碼器架構(gòu),其中編碼器將源數(shù)據(jù)壓縮成語義表示,解碼器使用接收到的特征和先驗(yàn)知識重建與任務(wù)相關(guān)的信息。早期的基于深度學(xué)習(xí)的 SC 方法 [2]、[3]、[4]、[5] 主要關(guān)注學(xué)習(xí)緊湊的語義表示,但受到編碼引起的信息丟失和有限性的固有約束

        概述

        在這封信中,我們提出了一個名為 DM-SR 的新穎框架,用于語義通信系統(tǒng)中的有效語義恢復(fù)。我們使用常見的下采樣作為編碼器來壓縮原始圖像以進(jìn)行傳輸,并專注于利用傳輸?shù)男畔⒑凸蚕淼闹R庫在語義層面恢復(fù)圖像。如圖 1 所示,所提出的 DM-SR 包括兩個關(guān)鍵組件:1)語義提取知識庫(SE-KB)和 2)語義恢復(fù)知識庫

        實(shí)驗(yàn)設(shè)置

        數(shù)據(jù)集。我們在一個包含 15,000 張圖像的大規(guī)模遙感數(shù)據(jù)集上進(jìn)行了廣泛的定性和定量評估,這些圖像涵蓋了各種真實(shí)世界場景,包括機(jī)場、海港、城市地區(qū)和農(nóng)村地區(qū)等復(fù)雜環(huán)境。數(shù)據(jù)集被分為 12,000 對用于訓(xùn)練,3,000 對用于測試,以確保評估的公平性和可靠性。每張?jiān)紙D像的分辨率為 512×512,并沿兩個方向下了四倍的比例

        結(jié)論

        在這封信中,我們提出了一個基于擴(kuò)散的多模態(tài)語義恢復(fù)框架 DM-SR,用于在通信限制下的語義恢復(fù)。核心貢獻(xiàn)在于整合了兩個人工智能驅(qū)動的知識庫:一個語義提取知識庫(SE-KB)和一個語義恢復(fù)知識庫(SR-KB)。SE-KB 從原始圖像中提取多樣化的語義線索,包括高級語義特征和標(biāo)簽式提示,而 SR-KB 利用這些語義信息

        CRediT 作者貢獻(xiàn)聲明

        劉磊:撰寫——原始草稿、可視化、軟件、方法論、形式分析、數(shù)據(jù)整理、概念化。邢家正:撰寫——審閱與編輯、驗(yàn)證、監(jiān)督、資源、調(diào)查、形式分析。

        利益沖突聲明

        作者聲明他們沒有已知的可能會影響本文報(bào)告工作的競爭性財(cái)務(wù)利益或個人關(guān)系。
        相關(guān)新聞
        生物通微信公眾號
        微信
        新浪微博
        • 搜索
        • 國際
        • 國內(nèi)
        • 人物
        • 產(chǎn)業(yè)
        • 熱點(diǎn)
        • 科普

        知名企業(yè)招聘

        熱點(diǎn)排行

          今日動態(tài) | 人才市場 | 新技術(shù)專欄 | 中國科學(xué)人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價(jià)專欄 | 技術(shù)快訊 | 免費(fèi)試用

          版權(quán)所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號