編輯推薦:
多模態情感分析提出解耦超圖建模方法,通過分離模態無關特征與模態特定特征,動態加權融合機制平衡跨模態交互與intra-模態表示,顯著提升CMU數據集性能。
黃彥平|鄧家文|莊妍|尤家莉|劉倩|任富士
中國電子科技大學計算機科學與工程學院,成都,611731,四川,中國
摘要
多模態情感分析(MSA)任務旨在通過整合文本、音頻和視頻模式的信息來識別情感。超圖作為一種突破性方法,因其在建模高階依賴關系方面的優勢而受到關注。然而,現有方法通常直接將特征輸入超圖,這使得在消息傳遞過程中難以平衡跨模態交互的增強和模態內特征表示。這種不平衡進一步加劇了模態異質性和貢獻不均的問題。為了解決這些挑戰,我們提出了一種新穎的解耦超圖建模(DHM)方法用于多模態情感分析。具體而言,解耦特征通過超圖進行建模,其中跨模態和模態內超邊被用來捕捉多層次的依賴關系。這有效地學習了共享表示,并減輕了共享信息中的貢獻不均問題。同時,我們設計了一個基于Transformer的專家混合(TMoEs)網絡來增強模態特定的表示并減少模態異質性。動態加權融合機制能夠自適應地平衡超圖和TMoEs網絡的輸出,從而增強跨模態協同作用。實驗結果在CMU-MOSI和CMU-MOSEI數據集上展示了先進的性能,驗證了解耦驅動的超圖建模在增強模態內和跨模態特征表示能力方面的有效性。
引言
情感在人類交流中起著至關重要的作用,深刻影響著個人的決策和行為[1]。傳統的情感分析主要依賴于單一模態(例如文本或視頻)來識別情緒。然而,由于情感信號的復雜性,單一模態方法往往無法準確捕捉所有情緒。隨著社交網絡、視頻平臺和智能設備的普及,產生了大量的多模態數據。這些多樣化的數據為情感分析提供了寶貴的信息。為了有效利用這些異構來源,多模態情感分析(MSA)成為一項關鍵的研究任務,旨在整合來自多種模態(例如文本、音頻、視頻等)的信息以理解人類的情感狀態[2]。目前,MSA在多個領域展示了顯著的潛力,包括醫學診斷[3]、智能系統[4]和人機交互[5]。
MSA任務中的主要挑戰在于處理模態異質性和不平衡[6]、[7]。現有研究提出了各種融合方法[8]、[9]、[10]、基于注意力的對齊策略[11]、[12]以及特征解耦[13]、[14]來減少模態異質性。此外,還采用了自適應模態權重學習[15]、模態不平衡正則化[16]和多模態對比學習[17]等方法來平衡不同模態的貢獻。雖然這些方法推進了跨模態相關性建模,但它們主要關注成對交互,限制了捕捉高階語義依賴關系的能力。圖神經網絡(GNNs)已被引入MSA任務中,以提供結構化的建模方法。然而,傳統圖依賴于成對邊,這限制了它們建模復雜多模態交互的能力。相比之下,超圖可以同時捕捉多個節點之間的高階依賴關系,使其成為MSA中的一個有前景的研究方向,如圖1所示。
最近基于超圖的方法通過構建不同的超邊[18]或采用動態超圖機制[19]來適應樣本之間的關系,從而實現特征交互。盡管這些方法可以捕捉更豐富的多模態交互,但它們仍然有兩個局限性:(1)它們通常直接通過超圖處理編碼特征,將異構信息嵌入到統一的特征空間中。這使得超圖難以平衡跨模態關系建模和模態內特征表示。(2)在超圖中傳遞消息時,模態之間的融合傾向于過分強調不變特征[20],這減少了模態特定信息的表達,并導致模態特化的喪失。
為了解決這些局限性,我們提出了解耦超圖建模(DHM)方法,如圖2所示。DHM框架首先采用特征解耦步驟,將多模態特征分為與模態無關和與模態相關的組件。只有與模態無關的特征被輸入超圖,以專注于跨模態共享信息的高階建模,從根本上緩解了統一空間中異構特征引起的耦合沖突。我們在超圖中設計了跨模態和模態內超邊,前者捕捉跨模態的協同依賴關系,后者在淺層強化模態內一致性,為跨模態信息對齊提供語義穩定性。特征解耦顯著減少了模態之間的分布差異,使超圖能夠在表示空間內更直接地建模語義相關性。其次,為了保留模態特定的表示,我們開發了一個基于Transformer專家混合(TMoEs)架構的獨立建模網絡,其中三個專家網絡專注于學習不同的模態特征。與傳統MoEs架構相比,TMoEs在樣本層面動態分配模態權重,從而加強模態特定的特征表示并通過上下文建模增強模態內區分度。TMoEs網絡有效地減輕了超圖消息傳遞過程中模態特定信息的減弱,從而增強了特征層面的模態表示。最后,我們提出了一種動態加權融合機制,以自適應地整合超圖學習到的跨模態共享表示和TMoEs增強的模態特定特征,提高模型中的跨模態協同作用。這種解耦和并行的建模策略在保持跨模態語義一致性的同時,有效保留了模態特定的區別,顯著提高了模型的區分度和泛化性能。
本工作的主要貢獻總結如下:
(1)我們提出了一種用于多模態情感分析的解耦超圖建模(DHM)框架,通過將跨模態共享表示分配給超圖來分離特征建模,從而緩解了由模態異質性引起的結構沖突。設計了兩種類型的超邊來捕捉語義依賴關系。
(2)我們開發了一個基于Transformer的專家混合(TMoEs)網絡來加強模態特定的特征表示,在跨模態聚合過程中保留模態特異性。提出了動態加權融合策略,以自適應地整合這些增強的表示與跨模態共享信息。
(3)在CMU-MOSI和CMU-MOSEI基準測試上的廣泛實驗表明,所提出的DHM在對齊和未對齊設置下均顯著優于現有方法,驗證了解耦驅動的超圖建模策略的有效性。
本文的其余部分結構如下:第2節回顧相關工作。第3節討論所提出模型的細節。第4節展示實驗結果和分析。第5節討論結論。
部分摘錄
多模態情感分析
多模態情感分析旨在通過整合異構模態數據來捕捉人類情感狀態[2]。現有研究通常基于循環神經網絡來建模多模態數據中的序列關系[21]、[22]。BC-LSTM[21]采用基于LSTM的框架從話語序列中提取上下文特征,用于話語級情感分類。MTSA[22]利用GRU構建序列到序列框架來轉換視頻和音頻
方法論
在本節中,我們詳細描述了所提出的DHM模型。圖2展示了所提出的DHM模型的架構。它由四個主要部分組成:特征解耦、超圖學習、模態特定的TMoEs網絡和動態加權融合。
實驗
在本節中,我們在兩個公開的多模態情感分析(MSA)數據集上評估了所提出的DHM模型,并解決了以下研究問題:
•提出的DHM方法是否提高了MSA任務的總體性能?
•DHM中每個組件的具體貢獻是什么?
•DHM對不同超參數設置的敏感度如何?
•DHM是否學習了更具區分性的多模態特征表示?
•RQ5:所提出的DHM中的特征解耦組件是否有效?
•RQ6:
結論
在這項研究中,我們提出了解耦超圖建模(DHM)框架,以解決基于超圖的MSA任務中的模態異質性和不平衡問題。通過將特征分為與模態無關和與模態相關的組件,并僅將前者輸入超圖,DHM能夠更有效地建?缒B共享信息,同時減輕由異構特征引起的沖突。為了保留模態特定的表示,我們提出了
CRediT作者貢獻聲明
黃彥平:寫作——審稿與編輯,撰寫——原始草稿,軟件,方法論,概念化。鄧家文:寫作——原始草稿。莊妍:寫作——審稿與編輯,方法論,概念化。尤家莉:寫作——審稿與編輯。劉倩:軟件,方法論。任富士:監督。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。
致謝
本工作得到了中國國家自然科學基金(項目編號U24A20250)、四川省自然科學基金(項目編號2025ZNSFSC1487)和中央高;究蒲袠I務費(編號ZYGX2024J022和ZYGX2024Z005)的支持。
黃彥平于2024年在中國成都的西華大學獲得碩士學位。她目前在中國成都的電子科技大學計算機科學與工程學院攻讀博士學位。她的研究興趣包括多模態情感分析、多模態學習和大型語言模型。