《Pattern Recognition》:Effective Audio-Visual Event Localization using CLIP-based Global Context Regulation for Mitigating Event Overconfidence
編輯推薦:
事件定位中的模態不一致性導致模型過度自信,本文提出基于CLIP的全球上下文調節方法通過計算多模態相似性后處理來抑制錯誤預測,并構建I-AVE數據集驗證其有效性,實驗表明該方法優于現有方法。
Sang-Rak Lee|A-Seong Moon|Bong-Soo Sohn|Jaesung Lee
韓國首爾東橋區鶴石路84號中央大學人工智能系,郵編06974
摘要
音視頻事件定位是指利用聽覺和視覺模態的聯合建模來識別視頻中可見和可聽到的事件。當音頻和視覺上下文不一致時,會遇到挑戰,因為這兩種信息之間存在沖突(例如,屏幕上的視覺顯示嬰兒在哭泣,而屏幕外的女性在說話)。在這種情況下,兩種模態都顯示出較高的重要性值,導致模型將背景誤分類為事件。為了解決這個問題,我們提出了一種基于CLIP的全局上下文調節方法,該方法利用了預訓練的AudioCLIP編碼器。這種方法通過后處理有效調節了與事件相關的得分,即使在訓練數據有限且存在不一致性的情況下也能表現出良好的性能。我們引入了一個針對不一致情況的基準數據集,以便進行可靠的評估。實驗結果表明,我們的模型優于現有方法,在事件定位方面達到了最先進的水平。這些發現強調了在多模態不一致性下調節事件過度自信的重要性,有助于在現實世界應用中實現更準確的事件定位。我們的代碼和數據集可在此處獲取:
https://github.com/PangRAK/GCRN引言
音視頻事件定位(AVEL)是指識別在特定時間持續期內發生的音頻和視頻事件。在實際應用中,AVEL系統接收同步的音頻和視頻流,并通過聯合考慮這兩種模態來確定事件發生的時間和類型。AVEL已應用于多個領域,包括視頻監控、多媒體內容分析和醫療保健[1]、[2]。其主要優勢在于通過聯合建模聽覺和視覺模態來提高事件檢測的準確性,從而比單獨使用任一模態獲得更準確和穩健的定位結果[2]。在現實世界的視頻中,這種多模態方法特別有益,因為一種模態可能受到干擾、部分缺失或視覺上不明確,此時另一種模態可以提供補充證據。
圖1展示了使用兩種模態進行事件定位的過程。在事件預測階段,只有當片段同時可聽和可見時,才會被識別為事件。這一階段的重點是判斷片段應被視為與事件相關還是背景,這對于減少可能傳播到后續階段的誤報至關重要。在事件定位階段,將事件類別分配給已識別的片段。這種兩階段的方法反映了準確的事件發生預測是可靠事件分類的前提,尤其是在視頻包含背景音頻、攝像機運動或多個并發活動的情況下。因此,事件預測的錯誤可能導致連鎖故障,錯誤的事件片段被傳遞進行分類,最終預測的可靠性降低。
關于AVEL的研究主要集中在捕捉音頻和視覺模態之間的關系[3]、[4]、[5]、[6]、[7]上。傳統方法大致分為兩類:跨模態注意力和表示學習。跨模態注意力通過動態加權特定模態的證據來增強模型捕捉互補特征的能力,并提高上下文理解。此外,基于注意力的機制通常試圖將顯著的音頻線索與視覺信息豐富的區域或幀對齊,從而實現更精確的時間定位。表示學習通過捕捉共享特征和特定模態的特征來提高模型的泛化能力。特別是,學習魯棒的表示可以減少對數據集偏差的敏感性,并在聲學環境、攝像機視角或事件頻率在不同視頻之間變化時提高模型的遷移能力。盡管有這些進展,但由于背景噪聲、遮擋、視覺證據薄弱以及多個聲源的存在,AVEL在無約束環境中仍然具有挑戰性。
AVEL的一個挑戰是處理包含不一致信息的輸入——即兩種模態中發生的事件屬于不同類別但都清晰可見的情況。這種不一致性與一種模態中簡單缺少事件的情況不同;相反,它指的是每種模態都指示了一個合理但語義不同的事件。例如,屏幕上的視覺顯示嬰兒在哭泣,而屏幕外的音頻包含女性的聲音,因此兩種模態傳達了不同的信息。這種不匹配在真實視頻中很常見,可能是由于屏幕外的聲音、旁白、背景對話或編輯效果造成的,并且可能持續存在于多個連續的片段中。在這種情況下,兩種模態都會獲得較高的重要性值,導致模型錯誤地預測“事件”,而正確的標簽應該是“背景”。我們將這種情況稱為事件過度自信。這個問題尤其嚴重,因為即使正確的決策應該是將片段視為非事件,模型也可能變得過于自信,從而產生誤報并降低下游分類的可靠性。
在本文中,我們提出了一種基于CLIP的全局上下文調節(GCR)方法來緩解現有研究中存在的事件過度自信問題。我們的方法針對由不一致的上下文信號引起的過度自信行為,旨在無需額外監督或專門訓練數據即可調節與事件相關的得分。我們的方法開發過程中考慮了幾個設計要點。首先,我們旨在保留輸入數據的同時防止異常高的事件相關得分。我們沒有修改原始的音頻或視覺輸入,而是專注于控制模型產生的置信度動態,使得語義不一致的片段不會獲得不合理的事件得分。為此,我們應用了一種后處理方法,該方法直接使用從初始音頻和視覺特征計算的時間余弦相似度來調節與事件相關的得分。直覺上,語義對齊的片段應該表現出更高的跨模態相似度,而語義不一致的片段即使各自看起來都很顯著,也應該顯示出較低的相似度。其次,由于缺乏包含不一致信息的視頻數據,我們采用了一種不依賴于學習的方法,通過計算從預訓練的AudioCLIP編碼器[8]提取的音頻和視覺特征之間的余弦相似度。通過利用預訓練的編碼器,我們避免了依賴額外的訓練來處理不一致性,并且可以將調節步驟作為模塊化組件集成到現有的AVEL流程中。
我們還提供了帶有AudioCLIP提取特征的AVE數據集,并引入了不一致AVE(I-AVE)基準數據集,這是一個包含不一致片段及其類型和時間邊界的新的標注數據集。該基準數據集旨在系統地評估在沖突上下文信息下的魯棒性,并支持對標準AVEL評估協議未能捕捉到的失敗案例進行細粒度分析。對這兩個數據集的評估表明,我們的方法達到了最先進的性能。進一步分析事件相關預測和分類的結果指出了未來研究的方向,包括改進對多個同時發生的事件的處理以及更可靠地拒絕包含強烈但矛盾的特定模態線索的片段。
總結來說,本研究的主要貢獻如下:(1)我們提出了一種GCR方法,有效解決了兩種模態之間的上下文信息不一致時事件過度自信的問題。(2)我們構建并發布了帶有詳細標注的I-AVE基準數據集,用于處理音頻和視覺模態提供沖突上下文信息的場景,從而實現穩健的評估。(3)我們在AVE和I-AVE數據集上取得了最先進的性能,并通過分別評估與事件相關的預測和事件分類進一步分析了性能下降的原因。
相關工作
相關工作
近年來,AVEL在多媒體和視頻AI研究領域受到了廣泛關注。已經提出了多種方法來通過有效結合和同步音頻和視頻數據來提高事件檢測的準確性[9]。本節全面回顧了現有的AVEL文獻,重點介紹了關鍵方法及其對該領域的貢獻。
聲音事件定位和檢測(SELD)以及時間動作定位(TAL)構成了
提出的方法
我們提出了一種GCR方法,通過利用預訓練的AudioCLIP[8]編碼器來緩解事件過度自信的問題。
實驗結果
在本節中,我們展示了我們提出的基于CLIP的GCR方法的結果,并將其效果與最先進的AVEL模型進行了比較。實驗旨在評估集成GCR的影響,特別是考察它是否改善了事件定位,并有效調節了由不一致的音視頻上下文引起的膨脹的重要性值。
討論
本研究的結果強調了所提出的基于CLIP的GCR方法在處理不一致信息時有效解決錯誤預測問題的有效性。本節討論了定性分析以及模型的優點和局限性,并概述了更穩健處理不一致性的潛在改進措施。通過分析定性示例和失敗模式,我們旨在明確GCR在何時最有益,以及何時需要額外的機制
結論
在本研究中,我們解決了傳統模型在面對不一致的音視頻信息時做出錯誤預測的挑戰。具體來說,當不一致性明顯存在時,模型經常將片段錯誤地分類為“事件”而不是“背景”。為了解決這個問題,我們提出了一種簡單而有效的基于CLIP的GCR方法,該方法對經過微調的AudioCLIP特征進行后處理,根據音視頻相關性調整置信度得分。我們的方法即使在
作者貢獻聲明
Sang-Rak Lee:撰寫——原始草稿、項目管理、方法論、概念化。A-Seong Moon:撰寫——審閱與編輯、驗證、調查。Bong-Soo Sohn:驗證。Jaesung Lee:監督。
利益沖突聲明
作者聲明以下可能被視為潛在利益沖突的財務利益/個人關系:
本研究得到了韓國政府(MSIT)資助的信息與通信技術規劃與評估研究所(IITP)的資助[RS-2021-II211341,中央大學人工智能研究生院項目]和[2021-0-00766,支持自動神經網絡開發的集成開發框架]
致謝
本研究得到了韓國政府(MSIT)資助的信息與通信技術規劃與評估研究所(IITP)的資助[RS-2021-II211341,中央大學人工智能研究生院項目]和[2021-0-00766,支持自動神經網絡生成和部署的集成開發框架]