基于不確定性和多樣性的選擇方法在視覺-語言模型中的主動學習應用
《Information Fusion》:Uncertainty and Diversity Based Selection for Active Learning in Vision-Language Models
【字體:
大
中
小
】
時間:2026年02月27日
來源:Information Fusion 15.5
編輯推薦:
提出UnDi方法,通過不確定性評估和多樣性保持優化樣本選擇,結合CLIP生成高質量偽標簽,顯著提升VLM適應性能。
Fan Yang|Kejun Ren|Jiahao Shen|Mingcai Chen|Yuntao Du
山東大學軟件學院,中國濟南,250061
摘要
預訓練的視覺語言模型(VLMs),如CLIP,展現了強大的零樣本學習能力,但在特定領域的視覺任務中仍遜色于完全監督學習的模型。模型適配是一種有效的方法,它通過僅微調一小部分參數來縮小這種性能差距,同時保持預訓練的模型框架不變。然而,這種方法仍然依賴于標注樣本,而在現實世界場景中,標注樣本往往難以獲得。主動學習(AL)通過選擇一小部分未標注數據進行注釋,提供了一個有前景的解決方案。以往的方法主要集中在選擇信息量大的樣本上,但未能同時平衡這兩者。為了解決這個問題,我們在本文中提出了一種新的方法UnDi,該方法能夠平衡
不確定性和
多樣性來選擇樣本。首先,UnDi引入了一種評分機制,綜合考慮樣本的置信度、變異性和熵來評估樣本的不確定性。其次,為了進一步提高多樣性并避免冗余,UnDi對高不確定性候選樣本應用K均值聚類。此外,我們將AL問題視為半監督學習問題,因為有許多未標注樣本可用。為了更好地利用未標注樣本中的信息,UnDi利用CLIP生成偽標簽,并結合基于置信度的過濾機制來確保偽標簽的質量。在多個圖像分類數據集上的廣泛實驗表明,UnDi在有和沒有未標注樣本的情況下,都顯著優于現有的AL基線方法。代碼可在以下鏈接獲取:
https://github.com/Yangfan-123-cell/UnDi引言
預訓練的視覺語言模型(VLMs),如對比語言圖像預訓練(CLIP)[1],通過利用大規模的圖像-文本配對數據集,在多種視覺識別任務中展示了出色的零樣本學習能力。這些模型通過實現有效的跨模態理解和遷移學習,而無需特定任務的訓練[2]、[3]、[4]、[5],徹底改變了計算機視覺領域。然而,盡管它們具有令人印象深刻的泛化能力,但在應用于特定領域的視覺任務時,VLMs的表現仍不如完全監督學習的模型。例如,CLIP在ImageNet上的零樣本準確率為76.2%,而最先進的監督學習方法的一致準確率超過85%[6]、[7],這突顯了需要有效適配策略的必要性。
為了縮小這一性能差距,最近的研究集中在通過各種參數高效技術來高效適配預訓練的VLMs。模型適配方法包括提示工程方法,如上下文優化(CoOp)[8]和條件上下文優化(CoCoOp)[9],以及基于適配器的方法,如CLIP-Adapter [10]和Tip-Adapter [11],這些方法成為顯著的參數高效微調技術。這些方法在保持模型框架不變的情況下優化了輕量級組件,大大提高了CLIP的遷移能力,同時計算開銷最小。
雖然模型適配降低了計算成本,但由于標注成本高昂,即使在少樣本學習場景中,獲取標注數據仍然是一個重要瓶頸。主動學習(AL)通過智能選擇樣本進行標注,旨在在有限的標注預算下最大化模型性能[13]、[14]、[15],提供了一個有前景的解決方案。
最近的研究越來越多地將AL策略與VLMs的適配相結合[16]、[17]。Bang等人[16]的早期工作認識到多樣性在樣本選擇中的重要性,強調在樣本選擇過程中保持類別平衡,因為不平衡的查詢會加劇預訓練VLMs中的固有偏見。在此基礎上,Safaei等人[17]進一步認識到不確定性和多樣性的共同重要性,通過為未標注樣本分配基于熵的權重,然后使用加權K均值聚類來引導采樣到高熵區域以進行代表性選擇。然而,這些方法面臨兩個關鍵限制:首先,基于不確定性或多樣性的方法依賴于單一的評估指標,這對于像CLIP這樣存在輸出置信度校準問題的大型預訓練模型來說是不可靠的[18]、[19]。其次,對整個未標注樣本池進行聚類可能會無意中選擇低不確定性得分的樣本,因為聚類過程更重視幾何多樣性而非不確定性質量,從而無法有效平衡多樣性和不確定性,可能降低所選樣本的信息量。圖1比較了在全樣本聚類和高得分樣本聚類下,從每個簇中選擇五個樣本時的樣本熵。圖3顯示了高得分樣本過濾對訓練集類別覆蓋率的影響。
為了解決這些限制,我們提出了UnDi(不確定性和多樣性),這是一種專門為VLMs適配設計的新型主動學習框架。我們的方法引入了兩項關鍵創新來克服現有方法的局限性。一方面,UnDi利用一個綜合的多維評分機制,綜合考慮樣本的置信度、變異性和熵,以更穩健地評估樣本的不確定性。另一方面,為了在保持高不確定性的同時實現有效的多樣性,UnDi僅對通過我們的評分機制識別出的高不確定性候選樣本應用K均值聚類,從而確保所有選中的樣本都保持高不確定性得分,同時在特征空間實現空間多樣性。
此外,考慮到主動學習場景本質上涉及大量的未標注數據,我們將這個問題視為半監督學習,并利用CLIP的零樣本學習能力為高置信度的未選樣本生成偽標簽,并結合基于置信度的過濾機制來確保偽標簽的質量。我們在七個基準數據集上進行了廣泛的實驗,結果一致證明了我們方法的有效性,在所有數據集中都觀察到了性能提升。此外,當我們的偽標簽策略與現有的主動學習基線結合使用時,所有方法的性能都得到了提升。
我們的主要貢獻總結如下:
•我們引入了一種兩階段樣本選擇策略,首先通過評分機制識別高不確定性候選樣本,然后在這個精煉的樣本池中應用K均值聚類,以實現不確定性和多樣性,同時避免信息稀釋效應。
•我們提出了一種綜合的多維評分機制,結合樣本熵、預測置信度和變異性,提供了比單一指標方法更穩健和可靠的樣本不確定性評估。
•我們提出了一種偽標簽生成機制,利用CLIP的零樣本學習能力將主動學習問題轉化為半監督學習框架,有效地利用更廣泛的未標注數據,而不增加手動標注的成本。
•我們在多個圖像分類數據集上進行了廣泛的實驗,證明UnDi在有和沒有額外未標注樣本的情況下,都顯著優于現有的AL基線方法,證明了其在不同領域的有效性和泛化能力。
部分片段
視覺語言模型(VLMs)
視覺語言模型(VLMs)通過學習圖像和文本的聯合表示,顯著推動了計算機視覺和自然語言處理領域的發展。像CLIP [1]和ALIGN [20]這樣的模型在大量的圖像-文本對數據集上預訓練后,在各種下游任務中展示了出色的零樣本學習能力。這些模型通常包括一個圖像編碼器(例如ResNet [6]或Vision Transformer(ViT)[21])和一個文本編碼器
方法論
我們提出了UnDi,這是一種通過未標注數據流的主動學習來適配預訓練CLIP模型以用于下游視覺分類任務的新型框架。其核心創新在于通過利用多次前向傳遞中的預測動態來平衡樣本選擇中的不確定性和多樣性,同時通過基于聚類的選擇來確保表示多樣性。這種雙重考慮使得樣本選擇更加明智和全面
實施細節
數據集。我們在七個廣泛采用的圖像分類基準數據集上評估了我們的方法,這些數據集已與CLIP模型一起被廣泛使用[37]。這些數據集涵蓋了多種視覺領域,以確保全面評估:EuroSAT [38]用于具有10個土地覆蓋類別的衛星圖像分類,Oxford Pets [39]用于37種貓和狗品種的細粒度識別,DTD [40]用于47種材料類別的紋理分析,Caltech101 [41]用于涵蓋101個一般對象的分類
討論
在本節中,我們對提出的選擇機制進行了深入分析,通過評估基礎UnDi方法(不使用偽標簽)來隔離查詢策略的貢獻。我們關注三個關鍵方面:對聚類算法的魯棒性、樣本質量的定量評估和計算效率。
結論
本研究解決了在嚴格標注預算下將大規模視覺語言模型適配到下游任務的關鍵挑戰。通過有效協調不確定性估計和分布多樣性,UnDi建立了一個優于現有主動學習基線的穩健框架。我們的科學貢獻有三個方面:(1)一種多前向傳遞預測評分機制,提供了比單一指標方法更豐富的樣本評估;(2)一種兩階段
科學寫作中生成式AI的聲明
在準備本手稿期間,作者僅使用Gemini 2.5 Pro進行語言潤色和風格改進。核心思想、實驗結果和解釋完全屬于作者本人。作者已徹底審查了最終版本,并對本文的內容和完整性負全責。
CRediT作者貢獻聲明
Fan Yang:寫作 – 審稿與編輯,寫作 – 原始草稿,可視化,方法論,形式分析,數據管理。Kejun Ren:寫作 – 審稿與編輯,方法論,形式分析。Jiahao Shen:形式分析,數據管理。Mingcai Chen:方法論,形式分析。Yuntao Du:寫作 – 審稿與編輯,方法論,資金獲取,形式分析,數據管理。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文所述的工作。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號