基于任務(wù)的圖像壓縮方法:在保持可解釋性的同時(shí)提升圖像分類性能
《Pattern Recognition Letters》:Task-Driven Learned Image Compression with Explainability Preservation for Image Classification
【字體:
大
中
小
】
時(shí)間:2026年02月28日
來(lái)源:Pattern Recognition Letters 3.3
編輯推薦:
本文提出了一種解釋性感知的圖像壓縮方法,通過(guò)率失真正則化結(jié)合知識(shí)蒸餾,在保持壓縮效率的同時(shí)提升注意力圖(CAM)的準(zhǔn)確性和定位能力,解決壓縮導(dǎo)致的可解釋性下降問(wèn)題。
楊宇晴|劉麗卓|劉忠剛
西北工業(yè)大學(xué)自動(dòng)化學(xué)院,中國(guó)陜西省西安市710129
摘要
用于圖像分類任務(wù)的機(jī)器學(xué)習(xí)圖像壓縮方法需要在比特率和分類準(zhǔn)確性之間找到有效的平衡;對(duì)于同時(shí)服務(wù)于機(jī)器和人類的應(yīng)用來(lái)說(shuō),還必須保持重建質(zhì)量。隨著對(duì)可靠人工智能需求的增加,壓縮表示應(yīng)進(jìn)一步保留支持模型決策的視覺(jué)證據(jù)。在本文中,我們首先展示了標(biāo)準(zhǔn)速率-失真(R-D)目標(biāo)在機(jī)器學(xué)習(xí)圖像壓縮中會(huì)顯著降低解釋的準(zhǔn)確性:即使預(yù)測(cè)結(jié)果正確,類別激活圖也會(huì)向不相關(guān)區(qū)域偏移——尤其是在低比特率下,這可能會(huì)削弱下游部署的信任度。為了解決這個(gè)問(wèn)題,我們引入了一種考慮可解釋性的R-D正則化方法,該方法同時(shí)保留了對(duì)分類性能、重建質(zhì)量和可解釋性至關(guān)重要的信息。我們的方法專注于基于類別激活圖(CAM)的解釋,并在訓(xùn)練過(guò)程中結(jié)合了知識(shí)蒸餾技術(shù)來(lái)保留與解釋相關(guān)的線索。實(shí)驗(yàn)表明,所提出的方法在顯著提高視覺(jué)解釋的準(zhǔn)確性和定位能力的同時(shí),也實(shí)現(xiàn)了R-D指標(biāo)的持續(xù)改進(jìn)。
引言
深度學(xué)習(xí)的快速發(fā)展——尤其是大規(guī)模模型——加劇了視覺(jué)數(shù)據(jù)流的存儲(chǔ)和帶寬需求,從而推動(dòng)了數(shù)據(jù)高效傳輸和部署的需求。同時(shí),來(lái)自社交媒體、視頻會(huì)議和邊緣設(shè)備的多媒體內(nèi)容的激增進(jìn)一步放大了這一需求,使得圖像和視頻壓縮對(duì)于高效存儲(chǔ)和低延遲通信變得不可或缺。因此,基于學(xué)習(xí)的壓縮方法越來(lái)越受到關(guān)注。特別是深度神經(jīng)壓縮方法[1]、[2]、[3]、[4]、[5]、[6]在保持高壓縮比的同時(shí)能夠產(chǎn)生更緊湊的表示。速率-失真(R-D)理論[7]正式化了比特率(R)和失真(D)之間的基本權(quán)衡。許多圖像和視頻編解碼器[1]、[2]使用均方誤差(MSE)來(lái)衡量失真(D)。然而,MSE往往與人類感知不符,因此人們提出了諸如SSIM[8]之類的感知度量方法。最近,由于對(duì)計(jì)算機(jī)視覺(jué)(CV)應(yīng)用需求的增長(zhǎng),壓縮優(yōu)化不僅關(guān)注感知質(zhì)量,還關(guān)注下游性能,例如分類[9]。在這些以任務(wù)為導(dǎo)向的設(shè)置中,僅針對(duì)以人類為中心的R-D目標(biāo)進(jìn)行優(yōu)化可能會(huì)導(dǎo)致比特被分配給對(duì)機(jī)器決策無(wú)關(guān)的內(nèi)容。因此,以任務(wù)為導(dǎo)向的設(shè)計(jì)將任務(wù)準(zhǔn)確性納入了失真項(xiàng)中。一些工作[5]、[6]通過(guò)直接將中間壓縮特征輸入到推理模型來(lái)繞過(guò)完整的圖像重建,并使用知識(shí)蒸餾(KD)[10]來(lái)學(xué)習(xí)有信息的中間特征。
隨著壓縮從純粹的人類消費(fèi)轉(zhuǎn)向人機(jī)聯(lián)合使用,保真度和任務(wù)準(zhǔn)確性變得必要但不夠。有效的人機(jī)交互還要求機(jī)器決策對(duì)人類來(lái)說(shuō)是可解釋的,特別是在醫(yī)療診斷[11]和自動(dòng)駕駛[12]等高風(fēng)險(xiǎn)領(lǐng)域。可解釋人工智能(XAI)[13]提供了分析模型推理的工具,而視覺(jué)解釋(例如熱圖)對(duì)于CV模型[14]、[15]、[16]、[17]、[18]、[19]尤為重要。在機(jī)器圖像編碼(ICM)的背景下,保留解釋不僅在事后可視化方面具有價(jià)值。在基于重建的流程中,重建后的圖像可能在視覺(jué)上看起來(lái)合理,但壓縮仍然改變了分類器依賴的證據(jù)(例如,將注意力轉(zhuǎn)移到了偽影上),使得解釋的保留對(duì)于審核模型邏輯非常有用。在沒(méi)有重建的流程中,由于像素?cái)?shù)據(jù)無(wú)法供人類檢查,解釋信號(hào)可以作為輕量級(jí)的證據(jù)來(lái)支持人類參與式的審查和故障診斷。我們的研究表明,壓縮會(huì)顯著降低解釋質(zhì)量。在較低的比特率下,即使分類器預(yù)測(cè)正確,視覺(jué)解釋(即激活圖)也可能向不相關(guān)區(qū)域偏移(見(jiàn)圖1)。這種退化削弱了模型決策的證據(jù)可信度。
受此觀察的啟發(fā),我們引入了一種考慮可解釋性的壓縮正則化方法,并重新定義了經(jīng)典的R-D權(quán)衡,以同時(shí)考慮視覺(jué)質(zhì)量、任務(wù)性能和解釋質(zhì)量。我們將我們的框架應(yīng)用于圖像分類任務(wù),并考慮使用類別激活圖(CAM)作為常用的解釋工具。
我們工作的主要貢獻(xiàn)總結(jié)如下:
•我們通過(guò)評(píng)估在不同比特率下壓縮表示上的分類器性能,研究了壓縮如何影響視覺(jué)解釋的質(zhì)量,并揭示了一種之前未被充分探索的故障模式:盡管保持了分類準(zhǔn)確性,解釋圖仍可能發(fā)生偏移。
•我們提出了一種考慮可解釋性的圖像壓縮框架,適用于有重建(解碼圖像)和無(wú)重建(模型使用的壓縮特征)的以任務(wù)為導(dǎo)向的設(shè)置。實(shí)驗(yàn)表明,所提出的權(quán)衡策略在保持競(jìng)爭(zhēng)性的速率-失真性能和分類準(zhǔn)確性的同時(shí),提高了解釋的準(zhǔn)確性。
•我們使用捕捉(i)類別相關(guān)性和(ii)定位能力的客觀指標(biāo)來(lái)評(píng)估壓縮下的解釋質(zhì)量,從而定量評(píng)估了不同比特率下的解釋退化和保留情況。
本文的其余部分結(jié)構(gòu)如下:第2節(jié)簡(jiǎn)要回顧了相關(guān)工作,第3節(jié)介紹了所提出的權(quán)衡策略并定義了量化可解釋信息失真的差異標(biāo)準(zhǔn)。第4節(jié)從定量和定性的角度展示了結(jié)果。最后,第5節(jié)得出了本文的結(jié)論。
部分摘錄
機(jī)器學(xué)習(xí)圖像壓縮
基于學(xué)習(xí)的編解碼器已經(jīng)從分析-合成自動(dòng)編碼器[1]迅速發(fā)展到改進(jìn)了熵估計(jì)和速率-失真(R-D)效率的超先驗(yàn)和上下文模型[2]。后續(xù)的設(shè)計(jì)進(jìn)一步增強(qiáng)了變換和上下文(例如注意力或改進(jìn)的先驗(yàn)),但仍以R-D為中心。除了人類感知之外,以任務(wù)為導(dǎo)向的壓縮還優(yōu)化了下游視覺(jué)準(zhǔn)確性,無(wú)論是針對(duì)重建后的圖像[9]還是直接針對(duì)壓縮/中間特征[4]、[5]。
提出的方法
我們的目標(biāo)是學(xué)習(xí)一種考慮可解釋性的圖像壓縮方案,以平衡壓縮表示的比特率、任務(wù)性能和目標(biāo)類別的視覺(jué)解釋質(zhì)量。當(dāng)需要圖像重建時(shí),還應(yīng)該考慮重建失真。圖2展示了基于知識(shí)蒸餾技術(shù)的我們的框架。該框架由一個(gè)教師模型和一個(gè)學(xué)生模型組成。
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集。我們使用ILSVRC2012 ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練和評(píng)估。它包含128萬(wàn)張訓(xùn)練圖像和5萬(wàn)張來(lái)自1000個(gè)類別的驗(yàn)證圖像。所有圖像都被調(diào)整為256×256大小,并在訓(xùn)練和測(cè)試時(shí)居中裁剪為224×224。
實(shí)現(xiàn)。我們采用ResNet-50作為分類器骨干,并使用ImageNet預(yù)訓(xùn)練的權(quán)重。以原始圖像作為輸入,我們計(jì)算教師模型的激活圖和logits,作為參考解釋和軟標(biāo)簽。
結(jié)論
我們提出了一種考慮可解釋性的學(xué)習(xí)壓縮方案,將經(jīng)典的速率-失真權(quán)衡重新定義為統(tǒng)一的速率-任務(wù)-解釋目標(biāo)。通過(guò)結(jié)合基于類別加權(quán)的激活的解釋-失真模塊并利用知識(shí)蒸餾,我們的方法保留了與決策相關(guān)的線索,實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的速率-失真效率,并提供了更可靠的視覺(jué)解釋。雖然當(dāng)前框架展示了有希望的結(jié)果
CRediT作者貢獻(xiàn)聲明
楊宇晴:撰寫(xiě)——審稿與編輯,撰寫(xiě)——初稿,可視化,驗(yàn)證,方法論,調(diào)查,形式分析,數(shù)據(jù)管理,概念化。劉麗卓:撰寫(xiě)——審稿與編輯,撰寫(xiě)——初稿,可視化,方法論。劉忠剛:撰寫(xiě)——審稿與編輯,撰寫(xiě)——初稿,驗(yàn)證。
利益沖突聲明
作者聲明以下可能的財(cái)務(wù)利益/個(gè)人關(guān)系可能被視為潛在的利益沖突:楊宇晴報(bào)告稱得到了VUB大學(xué)的寫(xiě)作協(xié)助。如果還有其他作者,他們聲明沒(méi)有已知的財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文所述的工作。
生物通微信公眾號(hào)
生物通新浪微博
- 搜索
- 國(guó)際
- 國(guó)內(nèi)
- 人物
- 產(chǎn)業(yè)
- 熱點(diǎn)
- 科普
今日動(dòng)態(tài) |
人才市場(chǎng) |
新技術(shù)專欄 |
中國(guó)科學(xué)人 |
云展臺(tái) |
BioHot |
云講堂直播 |
會(huì)展中心 |
特價(jià)專欄 |
技術(shù)快訊 |
免費(fèi)試用
版權(quán)所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯(lián)系信箱:
粵ICP備09063491號(hào)