通過多模態大型語言模型進行的情感感知式細粒度圖像質量評估
《Pattern Recognition》:Affective-Aware Fine-Grained Image Quality Assessment via Multi-modal Large Language Models
【字體:
大
中
小
】
時間:2026年03月03日
來源:Pattern Recognition 7.6
編輯推薦:
無參考圖像質量評估情感感知細粒度建模方法提出通過SAM語義分割和MLLM多維度評估實現區域級質量表征與全局情感線索融合,區域注意力機制有效抑制跨區域干擾,在多個基準數據集上驗證優于現有方法。
宋晨月|劉先柱|陳輝|朱海琪|米雅春|耿凱|吳俊偉|周正月|姜峰
哈爾濱工業大學計算機學院,中國哈爾濱
摘要
無參考圖像質量評估(NR-IQA)旨在預測與人類主觀感知一致的視頻圖像質量。現有方法通常依賴于整體表示或統一聚合的區域特征,這使得它們對語義顯著區域和空間非均勻失真不敏感,同時忽略了可以調節人類質量判斷的情感線索。為了解決這些問題,我們提出了一個具有情感意識的細粒度NR-IQA框架,稱為AffIQA,該框架聯合建模了區域級失真證據和全局情感線索,以實現準確的質量預測。首先,我們通過引入情感推理分支將情感線索明確納入NR-IQA中,以推斷整體情感表示,并將其與質量相關特征融合,從而提高與人類主觀質量判斷的一致性。然后,我們開發了一種區域級細粒度質量建模策略,使用Segment Anything Model(SAM)將圖像分解為語義區域,并使用多語言模型(MLLM)生成特定于區域的多維質量評估(例如,顏色、噪聲、偽影和模糊度),從而能夠對空間非均勻失真進行精細表征,而不僅僅是全局描述。此外,我們提出了一種區域感知的語義注意力機制,該機制限制了每個語義區域內的注意力計算,以聚合區域一致的特征并抑制跨區域干擾。在廣泛使用的圖像質量評估(IQA)基準測試上的大量實驗表明,AffIQA取得了最先進或具有競爭力的性能,并且在各種數據集上都具有很強的魯棒性。
引言
無參考圖像質量評估(NR-IQA)旨在以與人類視覺系統(HVS)[1]一致的方式估計感知圖像質量。可靠的NR-IQA對于改進包括圖像壓縮[2]、修復[3]、編輯[4]和生成[5]在內的廣泛應用中的感知對齊至關重要。盡管取得了顯著進展,但由于視覺內容的多樣性和人類評分的固有主觀性,準確建模人類主觀質量判斷仍然具有挑戰性。值得注意的是,主觀性不僅來源于觀察者對失真的敏感性和內容語義,還來源于觀看過程中引發的情感狀態:人們經常在形成質量判斷的同時產生情感反應,這兩個過程可以由相同的視覺刺激共同激活并相互作用[6]。因此,一個忠實的NR-IQA模型應該捕捉到由失真驅動的感知證據和與情感相關的高層次線索,以更好地近似主觀質量評分的機制。
與此同時,情感屬性在多個領域得到了廣泛研究[7]、[8]、[9],例如在個性化推薦[7]中的用戶偏好建模、語音理解[8]和文本生成[9]中。在視覺感知的背景下,心理學證據表明,情感狀態可以系統性地影響人類對視覺內容的評價[6]。例如,描繪臟街道的圖像可能會引發負面情感反應,從而導致整體質量評分較低,即使局部失真相當。這表明情感不僅僅是一個輔助標簽,而是一個高層次的潛在因素,它調節著主觀IQA分數,特別是在愉悅度、舒適度和吸引力與感知質量相互交織的現實世界環境中。然而,IQA與情感識別之間的關系仍然沒有得到充分探索,現有的IQA方法很少將情感屬性作為顯式建模因素納入其中。因此,如何賦予IQA模型情感感知能力,并有效地將情感線索與質量相關特征融合,以更好地近似人類主觀判斷,仍然是一個開放且重要的問題。
此外,隨著多模態大型語言模型(MLLMs)[10]、[11]的出現,基于MLLM的IQA越來越受到關注[12]、[13]、[14]。與僅從視覺嵌入中回歸分數的傳統IQA模型不同,MLLMs可以用自然語言表達感知印象,涵蓋顏色、噪聲、偽影和模糊度等不同標準[15]。這樣的描述提供了一個可解釋的、以人類為中心的界面,并提供了表達與人類質量判斷相關的高層次情感線索的自然方式。
然而,實際的IQA最終需要準確的數值評分,以描述為中心的MLLM在評分預測準確性方面仍然不如專門的IQA方法[13]、[14]、[16]。一個關鍵限制是,整體文本摘要往往過于粗糙,無法保留區域間的質量差異,使得生成的表示對空間非均勻失真的敏感性不足。一個典型的例子是Q-Align[17],它通過問答生成全局質量描述。例如,如圖1所示,兩只鸚鵡的特點是高清晰度和鮮艷的色彩,而背景則明顯模糊且曝光不足。然而,全局描述不可避免地忽略了區域間的質量差異,從而降低了整體評估的準確性。因此,利用MLLM的描述能力同時保留細粒度的、區域感知的失真證據,并進一步整合情感線索,以更好地與人類MOS評分行為對齊,是至關重要的。
為了解決這些問題,我們提出了一個具有情感意識的細粒度IQA框架,稱為AffIQA,用于圖像質量預測。受到MOS由局部失真證據和情感調節的整體偏好[6]共同塑造的啟發,AffIQA引入了一個情感推理分支來推斷圖像傳達的高層次情感線索,作為補充以失真為中心的感知的全局、以人類為中心的先驗。同時,為了克服整體MLLM描述的粗糙粒度,AffIQA結合了一個細粒度的失真感知分支,明確保留了區域間的質量差異。具體來說,我們使用SAM自動將圖像分割為語義區域,并使用MLLM對每個區域進行獨立的多維失真評估(例如,顏色、噪聲、偽影和模糊度)。這種區域級分解能夠對不同語義組件中的空間非均勻失真進行忠實表征,特別是在少數顯著區域主導整體評分時尤為重要。此外,我們設計了一種區域感知的語義注意力(RSA)機制,該機制限制了每個分割的語義區域內的注意力計算。通過僅在屬于同一語義組件的像素之間聚合特征,RSA提高了模型的可解釋性,并有效抑制了來自無關區域的跨區域干擾,從而加強了區域一致的質量表示。在標準IQA基準測試上的全面實驗表明,AffIQA取得了比最先進方法更好或具有競爭力的性能。總之,我們的貢獻如下:
•我們提出了一個具有情感意識的細粒度圖像質量評估框架,該框架聯合建模了局部失真證據和高層次的全局情感線索。通過將情感屬性引入IQA,它更好地匹配了人類MOS注釋背后的認知-情感機制,從而提高了與主觀質量感知的一致性。
•我們提出了一種區域級細粒度質量建模范式,以克服整體MLLM描述的局限性。具體來說,我們自動將圖像分解為基于SAM的語義區域,并使用MLLM為每個區域生成獨立的多維質量評估(例如,顏色、噪聲、偽影和模糊度),從而能夠對空間非均勻失真進行敏感的表征,而不僅僅是全局評分。
•我們提出了一種新穎的區域感知語義注意力機制,該機制僅在每個SAM分割的語義區域內執行自注意力。這種受語義約束的注意力產生了可解釋的區域一致表示,并有效抑制了來自無關內容的跨區域干擾。
•在廣泛使用的IQA基準測試上的大量實驗驗證了所提出的AffIQA支持區域級細粒度質量理解,并與現有方法相比取得了最先進或具有競爭力的性能。
部分摘錄
無參考圖像質量評估
與全參考IQA方法不同,NR-IQA方法只能使用低質量(LQ)圖像作為輸入來測量圖像質量,而沒有任何直接參考。之前的通用NR-IQA方法主要分為基于自然場景統計(NSS)的指標[18]和基于學習的指標[19]。這些手工制作的基于特征的方法基于這樣一個假設:從自然圖像中提取的NSS非常規則,這些統計在空間[18]、梯度[19]等領域中是如此。
方法論
在本節中,我們將詳細介紹所提出的AffIQA,該框架將區域級語義引導的多維失真感知與情感意識推理機制相結合,從感知和情感兩個角度聯合建模人類主觀圖像質量評估過程。
數據集
為了進行全面評估,我們包含了多種IQA數據集:LIVE [45]、CSIQ [46]、TID2013 [47]、KADID-10k [48]、CLIVE [49]、KonIQ-10k [50]和SPAQ [51]。前四個是合成失真數據集,而后三個包含真實的失真。如果可用,我們使用官方的訓練/驗證/測試集劃分。否則,我們隨機將其劃分10次,并報告平均值和方差。
指標
我們使用皮爾遜線性相關系數(PLCC)和斯皮爾曼等級相關系數
結論
在本文中,我們提出了一種新的具有情感意識的細粒度圖像質量評估方法AffIQA。通過利用SAM進行語義分割和MLLM進行多維失真分析的優勢,AffIQA實現了對不同語義區域的精確和全面的質量評估。為了有效地將語義指導與圖像特征融合以進行質量回歸,我們引入了區域級語義注意力(RSA)模塊。此外,為了表征
CRediT作者貢獻聲明
宋晨月:寫作 – 審稿與編輯,撰寫原始草稿,可視化,驗證,方法論,數據管理。劉先柱:寫作 – 審稿與編輯,方法論,調查。陳輝:調查,數據管理。朱海琪:寫作 – 審稿與編輯,調查。米雅春:項目管理。耿凱:數據管理。吳俊偉:數據管理。周正月:驗證。姜峰:寫作 – 審稿與編輯。
利益沖突聲明
作者聲明他們沒有已知的可能會影響本文報告工作的競爭性財務利益或個人關系。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號