《Neurocomputing》:Historical reliability-based dual contrastive hashing for robust cross-modal retrieval with noisy labels
編輯推薦:
跨模態哈希在噪聲標簽和模態差距共存時通過歷史損失引導的標簽可靠性估計和雙對比學習模塊提升檢索魯棒性,實驗驗證其優于現有方法。
王睿|黃海嘯|彭立康|蘇超|鐘子杰|饒大|吳文遠|彭德忠|王旭
四川大學計算機科學學院,成都,610065,中國
摘要
跨模態哈希作為一種有效的范式,通過將異構數據映射到緊湊的二進制代碼中,實現了大規模多模態檢索。然而,現有方法容易受到噪聲標簽的影響,而在現實世界中,由于眾包、自動注釋和人為錯誤,噪聲標簽非常普遍。標簽噪聲不僅會誤導監督過程,還會加劇固有的模態差異,從而降低檢索準確性和泛化能力。為了解決這些挑戰,我們提出了一種名為“基于歷史可靠性的雙重對比哈希”(HRDCH)的新框架。具體來說,HRDCH引入了(1)一種基于歷史損失的標簽可靠性估計機制,該機制利用時間損失軌跡自適應地識別可靠的監督數據;以及(2)一種雙重對比差距減小哈希模塊,該模塊將監督對比學習與無監督對齊相結合,以增強跨模態的語義一致性。這種聯合設計有效地抑制了噪聲標簽的影響,同時縮小了模態差異。在四個基準數據集(NUS、MS-COCO、Flickr和IAPR)上進行的廣泛實驗表明,HRDCH在各種噪聲比率和哈希代碼長度下始終優于現有的最佳方法。特別是在極端噪聲條件下,HRDCH表現出卓越的魯棒性,顯著提高了平均精度。這些結果突顯了我們框架在魯棒多模態檢索方面的有效性和泛化能力。
引言
隨著來自社交媒體平臺、電子商務系統、監控網絡和醫療檔案等不同來源的多模態數據的爆炸性增長,跨模態檢索信息的能力變得越來越重要[29]、[30]、[36]、[40]。與單模態檢索不同,單模態檢索中查詢和目標共享相同的數據類型,而跨模態檢索允許用戶使用文本查詢搜索圖像,根據圖像檢索描述性文本,甚至結合異構模態以實現更豐富的交互。這些能力在許多實際應用中至關重要,包括多媒體搜索引擎、推薦系統和數字資產管理系統,這些系統同時需要效率、可擴展性和魯棒性。
為了支持大規模檢索,跨模態哈希已成為一種特別有效的范式。通過將異構數據編碼到共享的漢明空間中的緊湊二進制代碼中[2]、[18]、[19]、[22]、[33],哈希不僅減少了存儲開銷,還允許通過輕量級的漢明距離計算進行高效的相似性搜索,使其非常適合Web規模的應用。與基于嵌入的其他方法相比,哈希在檢索準確性、內存成本和計算效率之間提供了更好的平衡,這解釋了其在多模態檢索研究中的持續重要性。
早期的跨模態哈希方法依賴于帶有手工制作特征的淺層架構,但其有限的表示能力往往在復雜的語義環境中限制了性能。深度跨模態哈希(DCMH)[8]、[12]、[32]、[33]、[39]的出現顯著推進了這一研究領域的發展。通過端到端的方式聯合學習特征表示和哈希函數,DCMH在可區分性和檢索效率方面取得了顯著改進。在此基礎上,后續工作探索了多種優化目標:基于分類的損失以加強語義一致性,成對或三元組約束[4]以保持相對相似性結構,以及對比學習策略[32]以通過對齊語義相似的實例來減少模態差異。這些方法為跨模態哈希帶來了顯著的進步。
然而,在實際應用中仍然存在兩個未解決的復合挑戰。(1)標簽噪聲。在現實世界的數據集中,標簽通常是通過眾包、自動注釋或手動標記獲得的,這些方法不可避免地引入了噪聲[1]、[35]。深度網絡容易過度擬合這種損壞的監督數據,導致檢索準確性的嚴重下降。(2)噪聲下的模態差異。即使是輕微的標簽損壞也會破壞跨模態的語義對齊,放大視覺和文本表示之間的內在異質性,限制了學習到的哈希代碼的泛化能力(見圖1)。在復雜的語義理解任務中,細粒度的語義建模本身仍然具有挑戰性[47]。因此,一個魯棒的跨模態哈希框架必須同時解決噪聲監督和模態差異問題。
最近的研究探索了抗噪聲的跨模態哈希[26]、[28]、[39],采用了小損失樣本選擇、基于置信度的重新加權或自適應學習等策略來減輕損壞注釋的影響。盡管這些方法在某種程度上提高了魯棒性,但它們仍然面臨關鍵限制:許多方法依賴于噪聲比率的先驗知識或假設特定的噪聲類型(例如,對稱噪聲);基于過濾的策略可能會丟棄有信息量的但難以處理的樣本;大多數方法專注于噪聲標簽的緩解,而對模態差異的關注不足。因此,這些方法對于實際的多模態檢索來說仍然不夠充分,因為在實際應用中,噪聲監督和模態差異通常同時存在并相互加劇。
為了解決這些挑戰,我們提出了一種名為“基于歷史可靠性的雙重對比哈希”(HRDCH)的新框架,旨在在噪聲監督下實現魯棒的多模態檢索。HRDCH的關鍵思想是將可靠性感知的學習與雙重對比目標相結合,確保同時抑制噪聲和實現模態對齊。具體來說,HRDCH包括兩個互補的模塊:(1)“基于歷史損失的標簽可靠性估計”(HLGRE),它利用時間損失軌跡自適應地評估標簽的可靠性,從而充分利用干凈和部分正確的標簽,而無需對噪聲特性進行先驗假設;以及(2)“雙重對比差距減小哈希學習”(DCGRHL),它將監督對比學習(由估計的可靠性指導)與無監督對比對齊相結合,以保持語義一致性并縮小模態差異,即使在嚴重的噪聲情況下也是如此。通過這種聯合設計,HRDCH動態調整其對噪聲監督的依賴性,并在高度損壞的環境中保持對齊良好、具有區分能力的哈希代碼。
總之,本工作做出了以下貢獻:
- 1.
我們提出了HRDCH,這是第一個同時減輕噪聲監督和模態差異的統一跨模態哈希框架。
- 2.
我們引入了一種基于歷史損失的可靠性估計機制,該機制自適應地校準標簽信號,避免依賴于先驗的噪聲知識或僵化的啟發式方法。
- 3.
我們進一步設計了一個雙重對比對齊模塊,該模塊利用可靠的監督和內在的跨模態結構,生成具有區分能力和魯棒性的哈希代碼。
- 4.
在四個廣泛使用的多模態基準數據集上的廣泛實驗驗證了HRDCH的優越性,顯示出在不同噪聲水平、代碼長度和數據集上的一致最佳性能。
章節片段
跨模態哈希
跨模態哈希已成為大規模多模態檢索的廣泛采用的解決方案,因為它將異構數據映射到緊湊的二進制代碼中,從而實現高效的存儲和快速的相似性搜索。早期的方法依賴于淺層架構和手工制作的特征,這限制了它們捕捉復雜語義的能力。深度跨模態哈希(CMH)方法[8]、[12]、[32]、[33]、[37]、[39]通過聯合學習特征表示和哈希函數,推動了該領域的發展
問題定義
我們關注在噪聲監督下的跨模態檢索問題,如我們的整體框架圖2所示。訓練數據集定義為,其中表示來自模態的第個樣本(例如,圖像和文本),而是一個多熱標簽向量,覆蓋了個語義類別。由于數據集不可避免地包含噪聲注釋,的某些條目可能會被損壞或丟失,從而給魯棒表示學習帶來額外的挑戰。
我們的目標是學習兩個
實驗設置
數據集。為了全面評估我們方法的性能,我們在四個常用的跨模態檢索數據集上進行了實驗:
(1)NUS-WIDE[3](NUS)是一個包含269,648張圖像的大規模網絡圖像數據集,這些圖像被標注了255個語義概念。按照常見做法,我們選擇了屬于21個最常見類別的200,421對圖像-文本對用于實驗。
(2)MS-COCO[21](COCO)包含123,287張圖像,每張圖像都配有一句人類注釋的描述性句子
結論
在本文中,我們介紹了基于歷史可靠性的雙重對比哈希(HRDCH),這是一個旨在解決噪聲標簽下跨模態檢索挑戰的魯棒框架。HRDCH利用基于歷史損失的標簽可靠性估計來自適應地識別可靠的監督數據,而其雙重對比學習模塊結合了監督語義和無監督的結構對齊來減少模態差異。通過在對四個數據集的全面實驗中
CRediT作者貢獻聲明
王睿:撰寫 – 審稿與編輯,撰寫 – 原始草案,可視化,驗證,方法論,形式分析。黃海嘯:調查,形式分析,數據管理。彭立康:資源,方法論。蘇超:方法論,數據管理。鐘子杰:可視化,驗證。饒大:驗證,數據管理。吳文遠:可視化。彭德忠:監督,資金獲取。王旭:監督,項目管理。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。
致謝
本工作得到了中國國家自然科學基金(62306197)、四川省科技計劃項目(2025ZNSFSC1507)、中國博士后科學基金(2021TQ0223, 2022M712236)和四川大學博士后聯合培訓計劃(SCDXLHPY2307)的支持。
王睿畢業于電子科技大學,獲得軟件工程碩士學位。他目前正在四川大學計算機科學學院攻讀博士學位。他的研究興趣包括機器學習、多模態融合和多模態學習。