亚洲综合无码,亚洲第一成人无码A片,午夜无码人妻AV大片

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

TINCLIP：通過文本反轉來提高CLIP的構圖推理能力，而無需額外操作

《Neurocomputing》：TINCLIP: Improving compositional reasoning of CLIP via textual inversion with no

【字體：大中小】 時間：2026年02月27日 來源：Neurocomputing 6.5

編輯推薦：

　　提出基于文本反轉的TINCLIP方法，通過將圖像表示映射到文本空間并引入“否”邏輯正則化和知識蒸餾，有效解決CLIP模型在 compositional reasoning 中的信息密度不均衡問題，在SugarCREPE和Winoground基準測試中性能提升超過8%。

Jiahe Wan|ZhongHao Wang|Yang Yu|Jun Ge|Zheng Ye

中國中南民族大學計算機科學與信息物理學院，國家民族事務委員會融合智能計算重點實驗室，武漢

摘要

對比語言-圖像預訓練（CLIP）模型顯著增強了文本和視覺表示之間的跨模態交互。然而，現有圖像-文本數據集中兩種模態之間的固有信息密度不平衡從根本上限制了CLIP的組合推理能力。本文提出了一種創新的基于反轉的方法，通過將圖像表示映射到文本空間中的語義表示來彌合模態之間的信息差距，從而消除了對硬負樣本的依賴。為了解決反轉表示的交互挑戰和反轉過程的效率問題，我們引入了“否”邏輯正則化機制和知識蒸餾技術。實驗表明，基于硬負數據的訓練方法無法真正提高對比學習范式下視覺-語言模型的組合推理能力，而我們的方法從根本上解決了這一問題。相比之下，我們的方法克服了這一限制，在SugarCREPE和Winoground基準測試中實現了超過8%的性能提升。

引言

組合性是視覺信息和自然語言共有的基本屬性[7]，任何復雜場景都可以通過其組成元素及其組合結構來確定。通過組合推理，人類可以依靠熟悉場景中的組成元素及其結構來理解新的變體場景。例如，人類可以輕松區分“一些植物圍繞著一個燈泡”和“一個燈泡圍繞著一些植物”。盡管這兩個句子包含相同的詞匯，但由于結構上的差異，它們的含義不同。然而，對于這樣的組合場景，視覺-語言模型通常表現出“詞袋”行為，無法在語義上進行區分。如圖1(a)所示，CLIP對匹配場景和組合場景賦予了幾乎相同的相似度分數。

對比視覺-語言模型通常從圖像-文本對中學習跨模態表示，這在圖像分類和分割等各種視覺任務中顯著提高了性能[28]、[42]、[49]。此外，這些模型通常是現代多模態基礎模型（例如LLaVA中的視覺編碼器[25]）的關鍵組成部分。然而，傳統圖像-文本數據集中的文本描述與其對應的圖像相比，信息密度（編碼過程中每個標記所包含的語義信息量）要低得多。簡單來說，雖然圖像包含豐富的像素級細節，但它們的配對文本通常僅限于大約十幾個詞的簡短描述。這種信息密度差異使得文本單獨難以完全捕捉所有視覺信息，從而導致模型難以區分新的組合場景和正確匹配的場景。

當前解決組合推理問題的工作[16]、[30]、[50]依賴于將硬負樣本納入訓練語料庫，旨在通過微調或預訓練來增強模型的組合推理能力。例如，Structure-CLIP [16]為硬負數據集VG-Attribution [50]構建了場景圖，并利用場景圖知識（SGK）來增強CLIP的組合推理能力。TripletCLIP [30]首先生成硬負樣本，然后交替使用這些樣本來訓練CLIP，進一步提高了其組合推理能力。盡管現有方法已經展示了有希望的結果，但組合推理數據無法直接從互聯網上獲得，這使得構建合成組合推理數據集的成本非常高昂。雖然自動生成與原始標題對應的硬負描述是可行的，但這種方法可能會引入隱性問題，如不合理的描述或缺乏流暢性[14]。獲取硬負圖像則更具挑戰性。同時，最近的一項研究[54]表明，要達到與真實數據相當的性能，需要超過三倍的數據量。此外，基于硬負樣本的監督學習方法不可避免地會導致模型過擬合。

因此，我們探索了一種無監督的解決方案，以避免依賴昂貴的硬負數據，旨在增強CLIP的組合推理能力，而不是學習樣本之間的人為特征。人為特征是指從合成構建的硬負樣本中產生的虛假相關性或表面詞匯對比[14]。在5.7節中，我們觀察到在 such 數據上訓練的模型在基準評估中獲得了高分，但無法區分兩個組合樣本的分布。這表明它們記住了數據集特定的模式，而不是獲得了穩健的組合語義。我們的方法基于一個直觀的想法：將更豐富的視覺信息注入文本表示中。

在圖像生成領域，可以將圖像反轉為生成模型對應的潛在序列，然后將這個潛在序列反饋到模型中以實現局部圖像編輯。反轉后的潛在序列保留了細粒度的視覺細節，為我們的想法提供了堅實的基礎。因此，我們提出了一種名為TINCLIP（通過無文本反轉改進CLIP的組合推理）的方法，該方法基于一個預訓練的CLIP [32]視覺-語言模型。所提出的方法首先將特定圖像的視覺表示反轉為語言空間中的反轉表示，然后將這些反轉表示與文本表示連接起來，以增強文本信息密度。這些反轉表示源自視覺表示，同時作為文本空間中的元素。這種雙重性質使得基于這些表示區分組合場景和匹配場景成為可能。受到[11]的啟發，我們采用文本反轉來實現映射過程，我們將其稱為基于優化的文本反轉（OTI）。在這個階段，通過迭代優化圖像特征獲得文本空間中的反轉表示，并在推理階段直接使用這種表示。為了確保這些表示能夠有效建模邊界區域，我們引入了“否”邏輯提示來輔助反轉過程。同時，在反轉過程中應用兩種正則化技術，以確保嵌入反轉表示后文本表示的整體流暢性。第二階段旨在解決基于優化的反轉一次只能處理單個圖像的限制。為了克服這一點，我們采用知識蒸餾來構建一個能夠反轉任意圖像的單一模塊。

在推理過程中，我們在每個文本描述前添加提示，而反轉網絡將查詢圖像反轉為反轉表示，然后將其與文本表示連接起來形成

。然后我們計算每個

與查詢圖像之間的相似度，以評估它們的對應關系。圖1(b)展示了我們的圖像到文本組合推理工作流程。對于文本到圖像的組合推理，我們的方法從多個圖像中提取多個反轉表示，將每個表示與查詢文本連接起來，并通過計算原始圖像及其對應的增強文本表示之間的相似度來評估匹配度。在SugarCREPE和Winoground基準測試上的廣泛實驗結果表明，TINCLIP顯著增強了CLIP的組合推理能力。值得注意的是，TINCLIP在SugarCREPE基準測試中的表現平均優于StructureCLIP 8%。此外，我們分析了基于硬負樣本的方法在不同基準測試中表現不同的原因。我們工作的主要貢獻包括：

•

本文提出了一種新方法，通過使用“否”進行文本反轉將視覺信息注入文本表示，從而消除了圖像和文本之間的信息密度不平衡，最終增強了CLIP的組合推理能力；

•

通過視覺分析，我們對基于硬負樣本的方法提供了更深入的見解：這些方法本質上是在訓練模型進行多項選擇，而不是真正增強它們的推理能力；

•

TINCLIP在SugarCREPE和Winoground基準測試中實現了最先進（SOTA）的性能，而消融研究驗證了所提出方法每個組件的有效性。

部分片段

組合推理

組合推理反映了模型在語義上區分高度相似場景的能力。現有研究主要集中在兩個方面：評估和增強這種能力。ARO [50]引入了第一個基準，系統地評估視覺-語言模型對對象順序、屬性和關系的理解，并率先使用硬負樣本來提高組合推理能力。后續工作擴展了評估維度——Winoground

研究目標

本研究旨在解決對比視覺-語言模型組合推理的兩個根本限制：（1）現有解決方案過度依賴硬負樣本；（2）CLIP的組合推理能力不足源于預訓練過程中的信息密度不平衡。我們提出了TINCLIP，這是一個無需注釋數據和硬負樣本即可增強組合推理的新框架。

方法論

在本節中，我們首先在4.1節提供了CLIP的概述。然后，在4.2節介紹了基于優化的文本反轉方法。最后，在4.3節中，我們將知識蒸餾應用于OTI，使其適用于更廣泛的場景。我們方法的總體結構可以在圖2中找到。

數據集

在訓練階段，我們使用ImageNet1K [34]的測試集作為未標記的圖像數據集，其中包含僅100,000張圖像。在構建訓練數據時，我們將這些未標記的圖像進行零樣本分類，將其分為OpenImagesV7 [19]的20,932個類別。雖然我們不訓練CLIP，但其預訓練數據集對其性能有一定影響。因此，我們選擇了多個不同大小的預訓練版本作為基線，包括CC3M [38]、CC12M [3]

結論

本文提出了一種零樣本方法，通過將圖像表示反轉為文本表示，并將這些反轉表示注入原始文本嵌入中來增強CLIP的組合推理能力。這一過程在推理過程中增加了文本的信息密度，從而提高了CLIP的組合推理能力。我們在SugarCREPE和Winoground基準測試上進行了全面實驗，證明了所提出的方法TINCLIP的效果。

CRediT作者貢獻聲明

Jiahe Wan：寫作——審閱與編輯，撰寫——原始草稿，可視化，驗證，項目管理，方法論，調查，形式分析，數據策劃，概念化。ZhongHao Wang：寫作——審閱與編輯，監督，資源，調查，資金獲取。Yang Yu：寫作——審閱與編輯，監督，資源，調查，資金獲取。Jun Ge：監督，資源，數據策劃，概念化。Zheng Ye：寫作——審閱與編輯，撰寫——原始

利益沖突聲明

作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。

致謝

本工作得到了中南民族大學基本研究基金（授權號：CZZ24009）和中南民族大學學術創新團隊及研究平臺（授權號：XTZ24003）的支持。

Jiahe Wan于2023年在中國江西科技學院獲得軟件工程學士學位，2026年在中國湖北中南民族大學獲得計算機科學技術碩士學位。他的研究興趣包括視覺-語言模型和組合推理。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號