《Information Fusion》:Fusing Representation Spaces: A Projected-Fusion Approach to Contrastive Learning
編輯推薦:
本文提出Projected-Fusion Contrastive Learning(PFCL)框架,通過投影和融合語義表示與標簽概率分布,解決單一表示的局限性,提升模型魯棒性和泛化能力,并在多任務文本分類中驗證有效性。
Nankai Lin|Kezhou Chen|Haonan Liu|Hongbin Zhang|Shengyi Jiang|Aimin Yang
廣東外語外貿大學信息科學技術學院,廣州,510000,中國
摘要
在監督學習(SL)中,模型的魯棒性和泛化能力一直是一個備受關注的問題。最近的研究嘗試使用對比學習(CL)來構建目標模型。大多數關于CL的研究集中在基于特征的對比學習(FeaCL)上,該方法利用語義表示來構建對比目標函數。此外,也有一些研究從標簽概率分布的角度來構建對比目標函數,這種方法被稱為基于概率的對比學習(ProCL)。然而,FeaCL和ProCL都可能存在一個共同的問題,即它們只能考慮一種類型的表示。為此,我們提出了一種新的CL框架,稱為投影融合對比學習(PFCL),通過表示融合來結合兩種CL范式的優勢。具體來說,我們首先構建一個標簽表示來近似標簽概率分布的輸出。然后,當具有相同標簽的樣本共享時,將這個表示與語義表示對齊進行融合。這種融合不僅實現了對齊,還增強了不同表示空間之間的交互,從而促進了表示的一致性。實驗證明了我們提出的PFCL范式的有效性。
引言
監督學習(SL)旨在從訓練數據集中盡可能準確地預測測試數據中的正確標簽,在各種自然語言處理任務中發揮了重要作用,如推薦[1]、[2]、問答[3]、[4]和文本分類[5]、[6]、[7]、[8]。最近SL研究中的一個主要問題是模型在某些應用場景中的魯棒性和泛化能力,訓練好的模型可能會忽略不同樣本之間的相似語義或標簽特征。為了解決這個問題,特別是在文本分類中,最近的研究致力于設計使用監督對比學習(CL)[9]、[10]的目標模型,該模型可以緊密地計算錨點(選定的訓練樣本)和“正樣本”(具有相同標簽的其他訓練樣本)之間的語義表示距離。然而,現有的CL方法在改進模型的語義表示方面仍有一些局限性。
大多數關于CL的研究集中在基于特征的對比學習(FeaCL)[11]、[12]上,該方法使用句子的語義表示作為構建對比目標函數的基本組成部分。此外,還有一些工作從標簽概率分布的角度來構建對比目標函數,這被稱為基于概率的對比學習(ProCL)[13]。圖1(a)和(b)提供了一個示例。在目標模型中,基于編碼器和分類器,計算錨點
和樣本,分別輸出它們的標簽概率分布和,其中為了同時結合兩種對比學習(CL)范式的優勢,如圖1(c)所示,我們引入了一種新的CL框架,稱為投影融合對比學習(PFCL)。對于目標模型中的
和,基于編碼器和分類器,我們分別構建它們的標簽表示E_il和E_jl。E^l可以近似表示并與E^t對齊,允許E^t投影到E^l上,以實現語義層(E^t)和標簽層(
或< />)的表示融合。這樣的框架可以融合來自不同表示空間的不同表示,利用對比視圖和對齊策略進行有效的表示融合。具體來說,雙重視圖(如圖2(d)中的藍色和橙色橢圓所示)用于確保具有相似標簽的樣本彼此靠近,而具有不同標簽的樣本則相距較遠。對齊策略(由帶箭頭的線表示)確保學習到的嵌入E^t不僅在同一類別內保持接近,而且與標簽表示E^l也對齊良好。這種方法有效地結合了基于特征的對比學習(FeaCL)的表示能力和基于標簽的對比學習(ProCL)的分布對齊能力。為了更好地說明三種對比學習方法之間的差異,我們展示了每種方法的渲染結果。FeaCL在語義表示層對比樣本,如圖2(b)所示。使用FeaCL時,具有相同標簽的樣本在語義表示空間中被聚集在一起,形狀越相似表示距離越近。圖2(c)提供了ProCL的操作和結果的說明圖,后者利用了標簽分布。我們提出的PFCL如圖2(d)所示,通過合并兩種對比視圖并對其進行對齊來增強對比學習。這種集成有效地融合了表示空間和標簽分布的對齊。
在PFCL中,表示的融合是通過雙重對比視圖來執行的。PFCL通過在同一空間內投影和對齊兩種不同的表示來實現。具體來說,對于給定的錨點及其對應的“正樣本”,PFCL首先在第一個對比視圖中縮短它們的語義表示之間的距離。同時,在第二個對比視圖中,它最小化它們的標簽表示之間的距離。這種雙重視圖確保了語義表示和標簽表示之間的對齊。根據錨點及其“負樣本”,它們的語義和標簽表示距離可以分別被放大。利用PFCL,同一類別的樣本在兩個表示空間內被聚集得更緊密,同時保持這些空間之間的近似對齊,如圖2(f)所示。PFCL不僅考慮了語義表示,還實現了語義表示和標簽表示之間的空間對齊。總之,PFCL有效地將語義表示與標簽表示關聯起來,從而進一步提高模型的魯棒性和泛化能力。我們在三個具有不同特征的文本分類任務上對PFCL進行了實驗,這些任務涵蓋了不同的訓練場景。這三個任務分別是單語多類文本分類(MMCTC)、單語多標簽文本分類(MMLTC)和跨語言多類標記分類(XMCTC)。本文的貢獻如下:
(1) 本文提出了一種新的對比學習框架PFCL,旨在融合語義和標簽表示。PFCL通過縮小語義表示和標簽概率分布之間的投影來實現這一點。
(2) PFCL有效地彌合了FeaCL和ProCL之間的差距。通過結合兩種范式的優勢,它提供了一種更全面和強大的對比學習方法。
(3) PFCL是一個即插即用的框架,適用于各種任務和方法。我們相信PFCL為文本分類的對比學習開發提供了新的途徑。
(4) 我們的工作不僅豐富了對比學習的理論理解,還為未來研究提供了實踐框架,以探索結合不同類型表示和學習策略的混合方法。
相關工作
相關工作
對比學習(CL)[14]、[15]是一個理論框架,旨在從組織成相似/不相似對的數據中學習相似/不相似的表示。該框架通過最小化表示空間中錨點和“正樣本”之間的距離,同時最大化錨點和眾多“負樣本”之間的距離來運作。正樣本主要由從錨點生成的數據增強樣本組成概述
我們介紹了一種新的對比學習框架,稱為投影融合對比學習(PFCL),它通過表示的融合結合了兩種CL范式的優勢。PFCL通過在同一空間內投影和對齊兩種不同的表示來實現這一點。具體來說,我們首先構建一個標簽表示來近似標簽概率分布的輸出。然后,這個表示與語義表示無縫集成
下游任務
在我們的研究中,我們在三個文本分類任務上評估了PFCL方法,每個任務都具有不同的特性,以涵蓋各種訓練場景。這些任務包括單語多類文本分類(MMCTC)、單語多標簽文本分類(MMLTC)和跨語言多類標記分類(XMCTC)。選擇XMCTC任務來展示PFCL處理不同語言之間的遷移和學習能力。
單語多類
數據集
MMCTC。我們在SST-5 [30]上進行了廣泛的實驗。該數據的原始訓練集、驗證集和測試集分別包含8543個、1100個和2209個樣本。我們直接使用它們來訓練和測試模型。
MMLTC。我們選擇了semEval-2018 [31]中的標記英文、阿拉伯文和西班牙文數據。最初構建了三組數據:訓練集(Train)、驗證集(Valid)和測試集(Test)。表1列出了每種語言的訓練集、驗證集和測試集
討論
PFCL在復雜場景中的卓越性能源于其通過投影融合策略聯合建模語義和標簽信息的能力,這種策略對齊了這些互補的表示空間。通過最小化語義投影之間的距離,同時優化標簽分布的對齊,PFCL捕捉到了細粒度的語義關系和粗粒度的類別區分,這對于多標簽和跨語言任務特別有益。
結論
在本文中,我們提出了一種新的框架PFCL,用于結合兩種現有CL的優勢,以提高目標模型的魯棒性和泛化能力。PFCL獨特地融合了語義表示和標簽概率分布,實現了近似的空間對齊,顯著提升了模型的魯棒性和泛化能力。這種表示的融合是PFCL卓越性能的基礎,我們的實驗在多種場景中得到了驗證
CRediT作者貢獻聲明
Nankai Lin:寫作 – 審稿與編輯,撰寫 – 原稿,方法論,概念化。Kezhou Chen:寫作 – 審稿與編輯,方法論,調查。Haonan Liu:寫作 – 審稿與編輯。Hongbin Zhang:寫作 – 審稿與編輯,方法論,調查。Shengyi Jiang:寫作 – 審稿與編輯。Aimin Yang:寫作 – 審稿與編輯。
利益沖突聲明
作者聲明他們沒有已知的競爭財務利益或個人關系可能影響本文報告的工作。