《Computer Speech & Language》:A Mixture-of-Experts model for multimodal emotion recognition in conversations
編輯推薦:
情緒識別在對話中的挑戰及混合專家模型解決方案。MiSTER-E通過模塊化架構分離語音和文本的語境建模與跨模態融合,利用動態門控機制加權專家輸出,并引入對比損失和KL散度正則化提升魯棒性。實驗在IEMOCAP、MELD、CMU-MOSI上取得70.9%、69.5%、87.9%的加權F1分數,優于多數基線系統。貢獻包括解耦語境建模與融合、自適應門控、多目標正則化。
蘇米婭·杜塔(Soumya Dutta)| 斯姆魯蒂·巴拉吉(Smruthi Balaji)| 斯里拉姆·加納帕西(Sriram Ganapathy)
LEAP實驗室,電氣工程系,印度卡納塔克邦班加羅爾IISc,郵編560012
摘要
在對話中的情感識別(Emotion Recognition in Conversations, ERC)面臨獨特的挑戰,要求模型能夠捕捉多輪對話的時間流程,并有效整合來自多種模態的線索。我們提出了“MiSTER-E”(Speech-Text Experts for Emotion Recognition)框架,這是一個模塊化的專家混合(Mixture of Experts, MoE)框架,旨在解決ERC中的兩個核心問題:特定模態的上下文建模和多模態信息融合。MiSTER-E利用針對語音和文本進行微調的大型語言模型(Large Language Models, LLMs)來提供豐富的句子級嵌入,然后通過卷積-循環上下文建模層對這些嵌入進行增強。該系統整合了三種專家的預測——僅基于語音的專家、僅基于文本的專家以及跨模態的專家——并使用一種學習到的門控機制動態地權衡它們的輸出。為了進一步促進不同模態之間的一致性和對齊,我們引入了基于配對語音-文本表示的監督對比損失,以及基于KL散度的正則化方法來處理專家預測。重要的是,MiSTER-E在任何階段都不依賴于說話者的身份。在三個基準數據集IEMOCAP、MELD和MOSI上的實驗表明,我們的方法分別獲得了70.9%、69.5%和87.9%的加權F1分數,優于幾種現有的語音-文本ERC系統。我們還提供了多種消融實驗來突出所提出方法的貢獻。
引言
對話中的情感識別(ERC)是指推斷參與多輪交互的說話者的情感狀態的任務,這些交互通常涉及多種模態。作為開發具有情感智能和社會意識的AI系統的關鍵組成部分,ERC在各種實際應用中發揮著重要作用——從富有同理心的對話代理和客戶服務機器人到社交媒體監控和心理健康評估系統(Pantic等人,2005年;Gaind等人,2019年;Ghosh等人,2019年)。在對話環境中,情感不是孤立表達的;它們隨著時間的推移而展現,并通過包括文本內容、語音韻律和視覺線索在內的豐富信號組合進行傳遞。這些信號常常以微妙且依賴于上下文的方式相互作用,因此捕捉模態內的動態和跨模態的依賴關系至關重要。對話的固有順序性和多模態特性,以及情感的主觀性和上下文敏感性,使得ERC在情感計算中成為一個復雜且具有挑戰性的任務。
已經提出了多種方法來推進ERC的發展,例如在對話的上下文建模(Hazarika等人,2018年;Majumder等人,2019年)、捕捉人際依賴關系的說話者感知表示(Hu等人,2021年;Shen等人,2025年),以及各種多模態融合策略——從簡單的早期連接(Han等人,2021年)到更復雜的基于注意力的方法(Dutta和Ganapathy,2025年)和基于張量的方法(Zadeh等人,2017年)。然而,盡管取得了這些進展,大多數現有系統仍然采用單一的架構,將兩個根本不同的建模挑戰混為一談:(i)捕捉多輪對話中的時間上下文,以及(ii)執行來自不同模態的信息融合。這種糾纏可能會限制模型性能,尤其是在訓練數據稀缺的情況下——這在ERC任務中很常見。因此,這樣的設計往往容易過擬合于特定數據集的模式,而不是學習出具有普遍適用性的情感線索。這引出了一個核心研究問題:
架構模塊化——特別是將上下文建模與模態融合解耦——是否能夠實現更有效和更普遍適用的情感識別?
在我們之前的研究(Dutta和Ganapathy,2023年)中,我們嘗試通過開發一個分層的ERC建?蚣軄斫鉀Q這個問題。這項工作將建模流程分為兩個階段:首先是模態內的上下文建模,然后是模態間的融合。這種結構引入了一定程度的架構解耦,并被證明可以提高性能。然而,仍存在一個關鍵限制:在模態間存在顯著性能差異的情況下,整個系統并沒有比最佳的單模態系統帶來額外的價值。
在這項工作中,我們提出了“MiSTER-E”(Speech-Text Experts for Emotion Recognition)框架,這是一個在邏輯決策(logit)層面而非特征層面強制結合專家的模塊化架構。MiSTER-E采用了專家混合(MoE)的形式,包含三個獨立優化的分支:僅基于語音的上下文專家、僅基于文本的上下文專家和多模態專家。單模態系統使用時間初始化網絡(temporal inception networks)捕捉特定模態的對話動態,然后通過循環層進行處理,而多模態專家則通過交叉注意力(cross-attention)和自注意力(self-attention)層融合語音和文本特征。這些專家的輸出通過門控機制結合在一起,在softmax歸一化之前計算出加權和。這種邏輯決策層面的融合使得模型能夠動態選擇專家,從而結合互補的多模態線索。為了進一步穩定專家的專業化,我們引入了對比損失和基于KL散度的正則化方法,并通過焦點損失(focal loss)對每個專家進行監督,以解決類別不平衡問題。特別是當某種模態(語音或文本)相對于另一種模態(文本或語音)具有優勢時,我們的模態解耦結合MoE的方法顯示出與其他先前工作相比的獨特融合優勢。以下是該工作的貢獻:
- •
我們提出了MiSTER-E,這是一個用于對話情感識別的模塊化框架,它使用邏輯決策層面的專家混合架構將特定模態的上下文建模與多模態融合分開。
- •
我們展示了自適應的、基于句子的專家加權機制能夠有效處理模態不平衡問題,允許在跨模態線索不可靠時單模態專家占主導地位。
- •
我們引入了輔助訓練目標,包括語音-文本對比損失和基于KL散度的正則化方法,以穩定專家的專業化。
- •
我們證明了MiSTER-E在三個基準ERC數據集IEMOCAP(Busso等人,2008年)、MELD(Poria等人,2019a年)和CMU-MOSI(Zadeh等人,2016年)上取得了最先進的性能——而且無需使用說話者身份信息。
相關工作
相關工作
文本嵌入提取:早期的ERC方法依賴于靜態詞嵌入,如Word2Vec(Mikolov等人,2013年)和GloVe(Pennington等人,2014年),來編碼話語(Poria等人,2015年;Zadeh等人,2017年;Mai等人,2019年)。隨著基于Transformer的語言模型(如BERT(Devlin等人,2019年)和RoBERTa(Liu等人,2019年)的出現,ERC系統開始采用上下文編碼器(Hazarika等人,2020年;Chudasama等人,2022年;Hu等人,2023年),從而提高了文本處理的效率。
數據集
我們在三個ERC數據集上評估了MiSTER-E的性能——IEMOCAP(Busso等人,2008年)、MELD(Poria等人,2019a年)和CMU-MOSI(Zadeh等人,2016年)。
IEMOCAP包含分為5個會話的對話數據,共151個對話和7433條話語。根據之前的研究(Lian等人,2022年),我們使用第5個會話進行測試,而第1個會話用于驗證。其余3個會話用于訓練。每條話語被分類為六種情感之一:“憤怒”、“快樂”、“悲傷”、“沮喪”、“興奮”。
專家行為和模態不平衡
我們分析了IEMOCAP和MELD上專家混合(MoE)門控機制的行為,以了解模型如何適應特定數據集的模態特征。如圖5(a)所示,門控網絡表現出明顯的數據集依賴性偏好:對于IEMOCAP,它給予多模態專家更高的權重;而對于MELD,則更傾向于文本專家。這種行為反映了兩個數據集中模態的相對可靠性。
這些趨勢與
結論
我們提出了MiSTER-E,這是一個用于ERC的模塊化框架,它明確地將上下文建模與多模態融合分開。利用基于LLM的表示方法處理語音和文本,我們使用時間初始化塊(temporal inception block)進行對話上下文的建模,然后通過基于注意力的網絡(attention-based network)進行模態融合。專家混合(MoE)門控機制自適應地整合來自上下文感知和多模態專家的決策。MiSTER-E在性能上達到了新的最先進水平。
局限性
盡管MiSTER-E在多個基準測試中取得了良好的性能,但仍存在一些局限性:(i)使用大型LLM/SLLM編碼器會引入非微不足道的計算和內存開銷,這可能會限制其在資源有限或實時環境中的適用性,盡管采用了參數效率高的微調方法。我們在表3中部分解決了這個問題,表明所提出的方法即使對于非基于LLM的特征也是有益的;(ii)我們的評估主要是在
CRediT作者貢獻聲明
蘇米婭·杜塔(Soumya Dutta):撰寫——審閱與編輯、初稿撰寫、軟件實現、方法論設計、概念構思。斯姆魯蒂·巴拉吉(Smruthi Balaji):可視化設計、軟件實現、方法論設計。斯里拉姆·加納帕西(Sriram Ganapathy):撰寫——審閱與編輯、初稿撰寫、項目監督、資金獲取、概念構思。
寫作過程中生成式AI和AI輔助技術的聲明
在準備這項工作時,作者使用了ChatGPT來潤色文本。使用該工具/服務后,作者根據需要審查和編輯了內容,并對出版物的內容負全責。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。
致謝
這項工作部分由總理研究獎學金(Prime Minister’s Research Fellowship, PMRF)和高通創新獎學金(Qualcomm Innovation Fellowship)資助。