制度丝袜诱惑av,国产精品视频久久久,日本色导航

首頁(yè) 今日動(dòng)態(tài) 人才市場(chǎng) 新技術(shù)專欄中國(guó)科學(xué)人云展臺(tái)
BioHot
云講堂直播會(huì)展中心特價(jià)專欄技術(shù)快訊免費(fèi)試用

生物通官微
陪你抓住生命科技
跳動(dòng)的脈搏

生物通首頁(yè) > 今日動(dòng)態(tài) > 正文

基于任務(wù)的圖像壓縮方法：在保持可解釋性的同時(shí)提升圖像分類性能

《Pattern Recognition Letters》：Task-Driven Learned Image Compression with Explainability Preservation for Image Classification

【字體：大中小】 時(shí)間：2026年02月28日 來(lái)源：Pattern Recognition Letters 3.3

編輯推薦：

　　本文提出了一種解釋性感知的圖像壓縮方法，通過(guò)率失真正則化結(jié)合知識(shí)蒸餾，在保持壓縮效率的同時(shí)提升注意力圖（CAM）的準(zhǔn)確性和定位能力，解決壓縮導(dǎo)致的可解釋性下降問(wèn)題。

楊宇晴|劉麗卓|劉忠剛

西北工業(yè)大學(xué)自動(dòng)化學(xué)院，中國(guó)陜西省西安市710129

摘要

用于圖像分類任務(wù)的機(jī)器學(xué)習(xí)圖像壓縮方法需要在比特率和分類準(zhǔn)確性之間找到有效的平衡；對(duì)于同時(shí)服務(wù)于機(jī)器和人類的應(yīng)用來(lái)說(shuō)，還必須保持重建質(zhì)量。隨著對(duì)可靠人工智能需求的增加，壓縮表示應(yīng)進(jìn)一步保留支持模型決策的視覺(jué)證據(jù)。在本文中，我們首先展示了標(biāo)準(zhǔn)速率-失真（R-D）目標(biāo)在機(jī)器學(xué)習(xí)圖像壓縮中會(huì)顯著降低解釋的準(zhǔn)確性：即使預(yù)測(cè)結(jié)果正確，類別激活圖也會(huì)向不相關(guān)區(qū)域偏移——尤其是在低比特率下，這可能會(huì)削弱下游部署的信任度。為了解決這個(gè)問(wèn)題，我們引入了一種考慮可解釋性的R-D正則化方法，該方法同時(shí)保留了對(duì)分類性能、重建質(zhì)量和可解釋性至關(guān)重要的信息。我們的方法專注于基于類別激活圖（CAM）的解釋，并在訓(xùn)練過(guò)程中結(jié)合了知識(shí)蒸餾技術(shù)來(lái)保留與解釋相關(guān)的線索。實(shí)驗(yàn)表明，所提出的方法在顯著提高視覺(jué)解釋的準(zhǔn)確性和定位能力的同時(shí)，也實(shí)現(xiàn)了R-D指標(biāo)的持續(xù)改進(jìn)。

引言

深度學(xué)習(xí)的快速發(fā)展——尤其是大規(guī)模模型——加劇了視覺(jué)數(shù)據(jù)流的存儲(chǔ)和帶寬需求，從而推動(dòng)了數(shù)據(jù)高效傳輸和部署的需求。同時(shí)，來(lái)自社交媒體、視頻會(huì)議和邊緣設(shè)備的多媒體內(nèi)容的激增進(jìn)一步放大了這一需求，使得圖像和視頻壓縮對(duì)于高效存儲(chǔ)和低延遲通信變得不可或缺。因此，基于學(xué)習(xí)的壓縮方法越來(lái)越受到關(guān)注。特別是深度神經(jīng)壓縮方法[1]、[2]、[3]、[4]、[5]、[6]在保持高壓縮比的同時(shí)能夠產(chǎn)生更緊湊的表示。速率-失真（R-D）理論[7]正式化了比特率（R）和失真（D）之間的基本權(quán)衡。許多圖像和視頻編解碼器[1]、[2]使用均方誤差（MSE）來(lái)衡量失真（D）。然而，MSE往往與人類感知不符，因此人們提出了諸如SSIM[8]之類的感知度量方法。最近，由于對(duì)計(jì)算機(jī)視覺(jué)（CV）應(yīng)用需求的增長(zhǎng)，壓縮優(yōu)化不僅關(guān)注感知質(zhì)量，還關(guān)注下游性能，例如分類[9]。在這些以任務(wù)為導(dǎo)向的設(shè)置中，僅針對(duì)以人類為中心的R-D目標(biāo)進(jìn)行優(yōu)化可能會(huì)導(dǎo)致比特被分配給對(duì)機(jī)器決策無(wú)關(guān)的內(nèi)容。因此，以任務(wù)為導(dǎo)向的設(shè)計(jì)將任務(wù)準(zhǔn)確性納入了失真項(xiàng)中。一些工作[5]、[6]通過(guò)直接將中間壓縮特征輸入到推理模型來(lái)繞過(guò)完整的圖像重建，并使用知識(shí)蒸餾（KD）[10]來(lái)學(xué)習(xí)有信息的中間特征。

隨著壓縮從純粹的人類消費(fèi)轉(zhuǎn)向人機(jī)聯(lián)合使用，保真度和任務(wù)準(zhǔn)確性變得必要但不夠。有效的人機(jī)交互還要求機(jī)器決策對(duì)人類來(lái)說(shuō)是可解釋的，特別是在醫(yī)療診斷[11]和自動(dòng)駕駛[12]等高風(fēng)險(xiǎn)領(lǐng)域。可解釋人工智能（XAI）[13]提供了分析模型推理的工具，而視覺(jué)解釋（例如熱圖）對(duì)于CV模型[14]、[15]、[16]、[17]、[18]、[19]尤為重要。在機(jī)器圖像編碼（ICM）的背景下，保留解釋不僅在事后可視化方面具有價(jià)值。在基于重建的流程中，重建后的圖像可能在視覺(jué)上看起來(lái)合理，但壓縮仍然改變了分類器依賴的證據(jù)（例如，將注意力轉(zhuǎn)移到了偽影上），使得解釋的保留對(duì)于審核模型邏輯非常有用。在沒(méi)有重建的流程中，由于像素?cái)?shù)據(jù)無(wú)法供人類檢查，解釋信號(hào)可以作為輕量級(jí)的證據(jù)來(lái)支持人類參與式的審查和故障診斷。我們的研究表明，壓縮會(huì)顯著降低解釋質(zhì)量。在較低的比特率下，即使分類器預(yù)測(cè)正確，視覺(jué)解釋（即激活圖）也可能向不相關(guān)區(qū)域偏移（見(jiàn)圖1）。這種退化削弱了模型決策的證據(jù)可信度。

受此觀察的啟發(fā)，我們引入了一種考慮可解釋性的壓縮正則化方法，并重新定義了經(jīng)典的R-D權(quán)衡，以同時(shí)考慮視覺(jué)質(zhì)量、任務(wù)性能和解釋質(zhì)量。我們將我們的框架應(yīng)用于圖像分類任務(wù)，并考慮使用類別激活圖（CAM）作為常用的解釋工具。

我們工作的主要貢獻(xiàn)總結(jié)如下：

•

我們通過(guò)評(píng)估在不同比特率下壓縮表示上的分類器性能，研究了壓縮如何影響視覺(jué)解釋的質(zhì)量，并揭示了一種之前未被充分探索的故障模式：盡管保持了分類準(zhǔn)確性，解釋圖仍可能發(fā)生偏移。

•

我們提出了一種考慮可解釋性的圖像壓縮框架，適用于有重建（解碼圖像）和無(wú)重建（模型使用的壓縮特征）的以任務(wù)為導(dǎo)向的設(shè)置。實(shí)驗(yàn)表明，所提出的權(quán)衡策略在保持競(jìng)爭(zhēng)性的速率-失真性能和分類準(zhǔn)確性的同時(shí)，提高了解釋的準(zhǔn)確性。

•

我們使用捕捉（i）類別相關(guān)性和（ii）定位能力的客觀指標(biāo)來(lái)評(píng)估壓縮下的解釋質(zhì)量，從而定量評(píng)估了不同比特率下的解釋退化和保留情況。

本文的其余部分結(jié)構(gòu)如下：第2節(jié)簡(jiǎn)要回顧了相關(guān)工作，第3節(jié)介紹了所提出的權(quán)衡策略并定義了量化可解釋信息失真的差異標(biāo)準(zhǔn)。第4節(jié)從定量和定性的角度展示了結(jié)果。最后，第5節(jié)得出了本文的結(jié)論。

部分摘錄

機(jī)器學(xué)習(xí)圖像壓縮

基于學(xué)習(xí)的編解碼器已經(jīng)從分析-合成自動(dòng)編碼器[1]迅速發(fā)展到改進(jìn)了熵估計(jì)和速率-失真（R-D）效率的超先驗(yàn)和上下文模型[2]。后續(xù)的設(shè)計(jì)進(jìn)一步增強(qiáng)了變換和上下文（例如注意力或改進(jìn)的先驗(yàn)），但仍以R-D為中心。除了人類感知之外，以任務(wù)為導(dǎo)向的壓縮還優(yōu)化了下游視覺(jué)準(zhǔn)確性，無(wú)論是針對(duì)重建后的圖像[9]還是直接針對(duì)壓縮/中間特征[4]、[5]。

提出的方法

我們的目標(biāo)是學(xué)習(xí)一種考慮可解釋性的圖像壓縮方案，以平衡壓縮表示的比特率、任務(wù)性能和目標(biāo)類別的視覺(jué)解釋質(zhì)量。當(dāng)需要圖像重建時(shí)，還應(yīng)該考慮重建失真。圖2展示了基于知識(shí)蒸餾技術(shù)的我們的框架。該框架由一個(gè)教師模型和一個(gè)學(xué)生模型組成。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集。我們使用ILSVRC2012 ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練和評(píng)估。它包含128萬(wàn)張訓(xùn)練圖像和5萬(wàn)張來(lái)自1000個(gè)類別的驗(yàn)證圖像。所有圖像都被調(diào)整為256×256大小，并在訓(xùn)練和測(cè)試時(shí)居中裁剪為224×224。

實(shí)現(xiàn)。我們采用ResNet-50作為分類器骨干，并使用ImageNet預(yù)訓(xùn)練的權(quán)重。以原始圖像作為輸入，我們計(jì)算教師模型的激活圖和logits，作為參考解釋和軟標(biāo)簽。

結(jié)論

我們提出了一種考慮可解釋性的學(xué)習(xí)壓縮方案，將經(jīng)典的速率-失真權(quán)衡重新定義為統(tǒng)一的速率-任務(wù)-解釋目標(biāo)。通過(guò)結(jié)合基于類別加權(quán)的激活的解釋-失真模塊并利用知識(shí)蒸餾，我們的方法保留了與決策相關(guān)的線索，實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的速率-失真效率，并提供了更可靠的視覺(jué)解釋。雖然當(dāng)前框架展示了有希望的結(jié)果

CRediT作者貢獻(xiàn)聲明

楊宇晴：撰寫(xiě)——審稿與編輯，撰寫(xiě)——初稿，可視化，驗(yàn)證，方法論，調(diào)查，形式分析，數(shù)據(jù)管理，概念化。劉麗卓：撰寫(xiě)——審稿與編輯，撰寫(xiě)——初稿，可視化，方法論。劉忠剛：撰寫(xiě)——審稿與編輯，撰寫(xiě)——初稿，驗(yàn)證。

利益沖突聲明

作者聲明以下可能的財(cái)務(wù)利益/個(gè)人關(guān)系可能被視為潛在的利益沖突：楊宇晴報(bào)告稱得到了VUB大學(xué)的寫(xiě)作協(xié)助。如果還有其他作者，他們聲明沒(méi)有已知的財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文所述的工作。

相關(guān)新聞

生物通微信公眾號(hào)

微信

新浪微博

我要投稿

搜索
國(guó)際
國(guó)內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

熱搜：學(xué)習(xí)圖像壓縮|率失真正則化|注意力圖（CAM）|知識(shí)蒸餾|可解釋性AI

知名企業(yè)招聘

熱點(diǎn)排行

新聞專題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號(hào)