《Pattern Recognition》:Unlocking Explainable and Effective Multimodal Affective Reasoning via Large Language Models
編輯推薦:
多模態情感分析中提出可解釋框架EMARF,通過MLLMs提取模態特征、一致性引導推理機制與LoRA輕量微調,實現分類與鏈式推理的統一,在效率與透明性上表現優異。
廖俊杰|曾建典|宋斌斌|周夢婷|范曉鵬|王天
北京師范大學文理學院,珠海,519087,中國
摘要
多模態情感分析結合了文本、視覺和音頻信號,在情感識別方面展現出了巨大潛力。然而,現有的神經網絡方法往往缺乏可解釋性,這限制了它們在現實世界應用中的可信度。為了解決這個問題,我們提出了一個可解釋的多模態情感推理框架(EMARF),該框架結合了多模態大型語言模型(MLLM)進行特定模態的特征提取、基于一致性的推理機制以及輕量級的LoRA微調。EMARF將快速分類和思維鏈(CoT)推理統一在一個框架中。在模態感知提示的引導下,模型能夠靈活地在直接預測和逐步推理之間進行選擇,從而實現具有認知啟發性和可解釋性的決策。實驗結果表明,EMARF在多個基準測試中取得了最先進的性能,同時保持了效率和透明度。
引言
隨著人工智能和人機交互技術的快速發展,機器準確感知、理解和響應人類情感的能力已成為智能系統研究的關鍵課題[1]。多模態情感分析通過整合語言、視覺和音頻等多模態信息,提供了更豐富的感知維度以及更精確的情感識別能力[2]、[3]。
一個關鍵問題是如何有效地捕捉不同模態之間的交互[4]、[5]。單一模態的信息通常不足以完全表達情感[6]、[7],需要與多模態信息結合進行協同推理。例如,在音頻模態中,高亢的語調可能表示情緒激動,但如果不結合文本模態的具體內容進行分析,可能會導致誤分類。因此,建立一種合理的交互機制來模擬人類的推理過程至關重要[8]。如圖1所示,現有方法主要依賴神經網絡進行特征提取、模態對齊和融合[9]、[10]。盡管性能有了顯著提升,但這些方法往往缺乏可解釋性,常被視為“黑箱”。
大型語言模型(LLM)的最新發展為多模態信息處理帶來了顯著推動[11]。例如,視覺-語言LLM在跨模態理解方面表現出色。然而,在結合LLM進行多模態情感分析時仍面臨兩個主要挑戰:首先,需要為特定任務開發多模態大型語言模型(MLLM);盡管有相關研究,但公開可用的代碼和基準測試仍然有限。其次,在計算資源受限的情況下(例如使用兩個4090 GPU),計算和存儲開銷成為一個重大挑戰。此外,情感分析本質上需要推理能力而不僅僅是簡單的模式匹配。因此,需要一種高效且輕量級的解決方案,能夠在資源有限的情況下充分利用現有大型模型的能力,同時減少對大規模數據的依賴。
為了解決上述挑戰,我們提出了一個模仿人類認知過程的多模態情感分析框架。在特征提取過程中,通過一致性檢查機制將視覺和音頻特征與文本模態對齊,以促進跨模態交互。在精心設計的提示引導下,該框架動態地強制執行語義一致性,以文本模態為錨點來對齊視覺和音頻特征的情感表達。為了進一步增強情感推理,我們構建了一個多模態推理鏈,并應用了基于LoRA的輕量級微調策略。受雙過程理論[12]、[13]的啟發,該框架在一個自適應的流程中統一了快速判斷和逐步推理:當模態一致時,模型被提示直接輸出預測;當出現不一致時,模型會被引導生成推理鏈后再做出決策。這種設計利用了現有LLM的能力,實現了高效且可解釋的多模態情感分析,而無需重新訓練整個模型。
本文的主要貢獻如下:
•我們提出了一個創新的多模態情感分析框架,探索了跨模態交互,并將快速分類與基于CoT的推理相結合,提高了可解釋性和透明度。
•我們設計了一種基于LoRA微調和提示引導的自適應推理的輕量級、資源高效解決方案,避免了大規模重新訓練的需要。
•我們在多個公開可用的數據集上評估了該方法,實驗結果表明它在多個任務上取得了最先進的性能。
章節片段
使用LLM的多模態情感分析
使用LLM的多模態情感分析通常遵循兩種策略[14]:1) 使用字幕模型將非文本模態(如圖像)轉換為文本[15];2) 使用編碼器提取多模態特征并將它們對齊到一個共享空間[16]。前者利用了LLM的語言推理能力,但可能會丟失微表情或語調等細微的情感線索。后者能夠實現更豐富的跨模態推理,但這依賴于有效的融合策略,并且通常需要大規模計算資源。方法論
圖2展示了EMARF的整體工作流程,它將快速判斷和逐步推理統一起來。AL-LLM和VL-LLM分別處理音頻和視覺模態,然后將融合后的特征傳遞給一個輕量級的、經過LoRA優化的推理模型(LRM)。在微調過程中,提示指導LRM在模態一致時直接輸出預測,在存在不一致時生成推理鏈。這種監督機制使模型能夠學習適應性深度控制——決定
數據集:
為了評估我們方法的性能,我們使用了涵蓋三種模態(視覺、文本和音頻)的多模態數據集。對于情感分析任務,我們使用了MOSI和MOSEI [26]數據集,這些數據集關注話語級別的情感極性分類(正面、負面、中性),以及范圍從-3到3的情感分數回歸。對于情感識別任務,我們使用了IEMOCAP [27]和MELD [28]數據集,這兩個數據集都旨在
案例研究:由人類認知引導的推理過程
為了更好地說明我們框架的雙過程推理系統,我們提供了兩個代表性示例,展示了系統如何在需要時進行快速一致性檢查和結構化多模態推理。
可視化
為了證明我們提出的EMARF框架的有效性,我們在IEMOCAP和MELD數據集上展示了混淆矩陣,如圖10(a)所示。我們的方法通過集成來自VL-LLM(視頻-文本)和AL-LLM(音頻-文本)的多模態表示,并通過一個經過微調的語言模型(LRM)直接生成情感判斷。IEMOCAP數據集的混淆矩陣(圖10)顯示,EMARF能夠準確分類沮喪和中性情感,準確率分別為275和270
結論
在本文中,我們介紹了EMARF框架,該框架旨在在有限的計算資源下最大化LLM的能力,實現高效且可解釋的多模態情感分析。EMARF通過自我一致性檢查和跨模態評估來模擬人類對多模態信息的感知和推理。它能夠在不進行大規模重新訓練的情況下有效捕獲和整合與情感相關的特征。實驗表明,EMARF在情感分析方面具有優越的性能
CRediT作者貢獻聲明
廖俊杰:撰寫——原始草稿、方法論、研究。曾建典:撰寫——審稿與編輯、撰寫——原始草稿、方法論。宋斌斌:撰寫——審稿與編輯、形式分析。周夢婷:撰寫——審稿與編輯、方法論。范曉鵬:撰寫——審稿與編輯。王天:撰寫——審稿與編輯、方法論。
利益沖突聲明
本手稿的提交不存在利益沖突,所有作者均同意發表。我代表我的合作者聲明,所描述的工作是原創研究,尚未在其他地方全部或部分發表。
致謝
上述工作部分得到了中國國家自然科學基金(NSFC)項目62302049、廣東省本科教學質量與改革項目jx2024309以及國家互聯網架構重點實驗室開放研究項目HLW2025MS05的資助。同時感謝北京師范大學珠海分校跨學科智能超級計算中心的支持。