一種新穎的多模態注意力協同學習框架,結合語義增強技術用于音視頻問答任務
《Engineering Applications of Artificial Intelligence》:A novel multi-modal attentional collaborative learning framework with semantic enhancement for audio–visual question answering
【字體:
大
中
小
】
時間:2026年02月27日
來源:Engineering Applications of Artificial Intelligence 8
編輯推薦:
多模態注意力協作學習框架結合語義增強策略,通過MLLM生成視頻描述指導多模態信息融合,實現高效準確的AVQA任務,參數和計算量減少超60%,準確率提升2.61%。
Jie Yang|Miao Ma|Peng Wang|Yutong Li|Zhao Pei|Chao Yao|Longjiang Guo
陜西師范大學計算機科學學院,中國西安710119
摘要
音頻-視覺問答(AVQA)任務旨在從視頻中提取音頻和視覺線索來回答問題。流行的兩階段方法,如漸進式時空感知網絡(PSTP-Net),首先根據問題定位音頻-視覺場景中的關鍵片段,然后識別最相關的音頻-視覺區域。雖然這減少了線索的冗余,但它忽略了豐富線索的互補作用,而后者對于全面理解音頻-視覺內容至關重要。在本文中,我們提出了一個新穎的框架,從問題本身開始,指導整個多模態協作學習過程,并進行音頻-視覺問答。該方法包括使用多模態大型語言模型(MLLMs)作為工程解決方案的語義增強策略,以及多模態注意力協作學習過程,這是核心的算法創新。在音樂音頻-視覺問答數據集(MUSIC-AVQA)和音樂音頻-視覺問答數據集版本2(MUSIC-AVQA v2)上的廣泛實驗證明了我們方法的有效性。與PSTP-Net相比,我們的方法將訓練參數數量減少了61.23%,浮點運算次數(FLOPs)減少了60.83%,同時準確率提高了2.61個百分點。這表明我們的方法有效地捕獲和了對齊了豐富的音頻-視覺線索,顯著提高了推理效率。我們的代碼將很快公開。
引言
隨著短視頻應用的興起,對自動視頻分析和理解的研究需求也在增加(K. Li等人,2024年;Li等人,2025年;Song等人,2024年)。作為典型的視頻理解任務,問答包括對視頻場景的細粒度理解,包括音頻問答(AQA)(Fayek和Johnson,2020年)、視覺問答(VQA)(Kafle和Kanan,2017年)以及音頻-視覺問答(AVQA)(Lao等人,2023年;Z. Li等人,2024年;Duan等人,2024年;Le等人,2020年;Yun等人,2021年)。AVQA作為一種新興任務,旨在結合視頻中的音頻和視覺信息來進行推理并生成準確的答案。隨著人工智能技術,特別是深度學習、自然語言處理和計算機視覺的快速發展,AVQA研究取得了顯著進展,為各種應用場景提供了支持。然而,隨著模型復雜性的增加,特別是在多模態信息融合過程中,對計算資源的需求也急劇上升。因此,在保持模型準確性的同時優化計算資源的使用已成為AVQA領域的一個重要挑戰。
大多數以往的工作都是基于日常生活中的閱讀理解經驗來處理AVQA任務的(G. Li等人,2022年;G. Li等人,2023年)。在這些范式中,它們首先閱讀問題,提取關鍵詞,然后在文章中搜索相應的信息,這可以大大提高效率和準確性。如圖1所示,給定問題“哪種acoustic_guitar先發出聲音?”,模型根據關鍵詞‘first’確定音頻-視覺片段,然后識別與‘acoustic_guitar’相關的視覺區域。這種方法減少了冗余數據,促進了高效的時空推理。然而,它經常忽略了冗余線索的互補價值,這些線索可能為更全面的推理提供必要的上下文信息。
為了在充分利用多模態數據的上下文豐富性的同時保持問題驅動推理的效率,我們從問題開始啟動學習過程,并在整個多模態流程中整合推理。實現這一點需要AVQA模型獲得足夠的背景知識,這是準確理解問題和進行更深層次推理的基礎。為此,我們引入了使用多模態大型語言模型(MLLMs)的語義增強策略(Huang等人,2023年;Fei等人,2024年;Alayrac等人,2022年;J. Li等人,2023年)。這種策略生成描述性的視頻字幕,提供補充的語義線索,從而豐富模型對視頻內容的理解。具體來說,我們采用任務導向的提示學習來設計針對AVQA環境的提示,使MLLMs能夠生成與上下文對齊且語義豐富的音頻-視覺場景的文本表示。
在這些增強語義的指導下,模型繼續在音頻和視覺模態中搜索與問題相關的信息線索。為了有效地對齊和整合這些多模態信息,我們設計了一個多模態注意力協作學習(共學習)框架。具體來說,該模塊包括兩個基本操作:信息聚合和信息廣播。這些操作幫助根據文本查詢在音頻-視覺模態中搜索線索,并將它們廣播回音頻和視覺特征,以突出與問題相關的音頻-視覺線索。此外,為了保留多模態特征中的細粒度信息,我們引入了一個多頭全局自注意力機制。
我們將完整的方法稱為帶語義增強的多模態注意力共學習框架,用于音頻-視覺問答,并在廣泛使用的MUSIC-AVQA(G. Li等人,2022年)和MUSIC-AVQA v2(Lin等人,2023年)數據集上對其進行了評估。實驗結果表明,我們的方法不僅有效地捕獲和對齊了豐富的音頻-視覺線索,從而更準確地回答問題,還顯著提高了推理效率,并優化了計算資源的使用。總結如下:
(1) 我們設計了一個新穎的多模態注意力共學習框架,通過雙向信息聚合和廣播操作來捕獲和對齊音頻和視覺特征中的語義信息,從而實現更準確的問題回答。
(2) 我們提出了一種使用MLLMs的語義增強策略,該策略生成視頻描述,并將其作為串聯指導傳遞給共學習模塊,提供額外的語義信息以增強AVQA模型的視頻理解能力。
(3) 我們在MUSIC-AVQA和MUSIC-AVQA v2基準上進行了廣泛的實驗和消融研究,證明我們的方法不僅提高了準確性,還顯著降低了資源需求。
相關工作
相關工作
在本節中,我們首先介紹音頻-視覺問答,然后介紹語言輔助的音頻-視覺場景理解。
方法論
在本節中,我們將介紹所提出的帶語義增強的多模態注意力共學習框架,用于音頻-視覺問答,該框架能夠捕獲和對齊來自音頻和視頻的不同語義信息,從而提高視頻內容的理解。所提出框架的概述如圖2所示。我們首先介紹不同模態的表示方法,然后詳細解釋所提出的語義
實驗
在本節中,我們將評估我們的方法。首先,我們將介紹這里使用的數據集和評估指標。然后,我們將詳細描述我們的實現過程。接下來,我們將介紹各種基線,并將我們的模型與當前的最先進方法進行比較。最后,我們將進行消融實驗,以驗證所提出方法的各個組件的相對性能。
結論
在本文中,我們提出了一個帶語義增強的新穎框架,用于音頻-視覺問答,該框架利用基于文本的指導來捕獲豐富的音頻-視覺線索信息,從而更有效地回答問題。所提出的方法包括兩個主要組成部分:使用MLLMs的語義增強策略和多模態注意力共學習框架。首先,我們設計了提示指令,充分利用了
CRediT作者貢獻聲明
Jie Yang:撰寫——原始草稿、軟件、方法論。Miao Ma:撰寫——審閱與編輯、監督、資金獲取。Peng Wang:撰寫——審閱與編輯、監督。Yutong Li:撰寫——審閱與編輯、驗證。Zhao Pei:撰寫——審閱與編輯、驗證、資金獲取。Chao Yao:撰寫——審閱與編輯、驗證。Longjiang Guo:撰寫——審閱與編輯、驗證。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能會影響本文報告的工作。
致謝
本工作部分得到了國家自然科學基金(項目編號:62377031、62471281)的支持,以及陜西省重點研發計劃(項目編號:2024GX-YBXM-086)的支持。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號