jiZZjiZZji?ZZ亚洲熟女,韩国无码一区二区三区精品,奇米久久

首頁今日動態(tài) 人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

揭示CLIP模型與擴散模型在弱監(jiān)督語義分割中的互補協(xié)同作用

《Expert Systems with Applications》：Unveiling the Complementary Synergy of CLIP and Diffusion Models for Weakly Supervised Semantic Segmentation

【字體：大中小】 時間：2026年03月03日 來源：Expert Systems with Applications 7.5

編輯推薦：

　　弱監(jiān)督語義分割中提出ComCD方法，通過整合CLIP模型和擴散模型，設計熵基融合策略優(yōu)化CAM生成，并構建特征對齊解碼器提升分割性能，實驗驗證其在多數據集上優(yōu)于現有方法。

上海大學計算機工程與科學系，中國上海市寶山區(qū)上大路99號，200444

摘要

弱監(jiān)督語義分割（WSSS）僅依賴于圖像級標簽，通過生成類別激活圖（CAMs）作為像素級種子，并將其轉換為偽標簽用于分割。最近，一些方法利用對比語言-圖像預訓練（CLIP）或擴散模型在WSSS流程中生成CAMs。然而，如何將這兩種范式結合在一個框架中仍然是一個未充分探索的問題。在這項工作中，我們提出了ComCD（CLIP和擴散模型的互補協(xié)同），它整合了這兩種范式并利用它們的互補性來提高CAM的質量。首先，從CLIP分支和擴散模型分支分別生成特定類別的CAMs。其次，我們設計了一種基于熵的融合方法，將兩個CAMs之間的熵差異映射為可靠性權重，然后將它們融合成一個精細的CAM，并將其轉換為偽掩碼。最后，一個帶有Logit門控模塊的可訓練分割網絡預測權重以融合兩個分支，并產生最終的分割結果。實驗結果表明，所提出的ComCD在WSSS和開放詞匯表語義分割方面優(yōu)于現有的最先進方法。

引言

弱監(jiān)督語義分割（WSSS）旨在平衡注釋成本和像素級預測的需求。與需要像素級注釋的完全監(jiān)督方法不同（Chen, Papandreou, Kokkinos, Murphy, & Yuille (2017); Fu, Lou, & Yu (2025)），WSSS使用更經濟的監(jiān)督方式訓練密集的分割模型，包括點注釋（Bearman, Russakovsky, Ferrari, & Fei-Fei (2016), 筆跡（Lin, Dai, Jia, He, & Sun (2016); Vernaza & Chandraker (2017), 邊界框（Lee, Yi, Shin, & Yoon (2021b); Oh, Kim, & Ham (2021)）以及圖像級標簽（Wu et al. (2024a); Wu, Ye, Yang, Li, & Li (2024b); Yang et al. (2025b)），從而減少了數據收集和整理的開銷。在這些方法中，圖像級標簽僅指示類別存在而不提供空間定位，因此是最具挑戰(zhàn)性的。在這項工作中，我們采用圖像級標簽進行語義分割。

在圖像級監(jiān)督下，典型的多階段流程首先訓練一個圖像分類器來生成類別激活圖（CAMs）（Zhou, Khosla, Lapedriza, Oliva, & Torralba (2016)）。然后訓練一個細化網絡來進一步改進CAMs（Ahn, Cho, & Kwak (2019); Ahn & Kwak (2018)）。最后，在從CAMs派生的偽標簽上訓練一個分割網絡（Kweon, Yoon, & Yoon (2023); Xie, Hou, Ye, & Shen (2022); Yoon, Kwon, Kim, & Yoon (2024b)）。為了減少流程開銷，單階段方法將這些步驟集成在一個模型中，該模型同時生成偽標簽并學習像素級掩碼（Ru, Zheng, Zhan, & Du (2023); Wu et al. (2024b); Yang et al. (2024)）。然而，由于監(jiān)督不足，CAMs往往只關注具有區(qū)分性的區(qū)域，導致覆蓋不完整和偽標簽噪聲較大，從而降低了WSSS的性能。最近，基于對比語言-圖像預訓練（CLIP）和擴散模型的兩種范式在WSSS中變得突出（Lin et al. (2023); Sun, Cao, Xie, Khan, & Pang (2024a); Yang et al. (2025b); Yoon, Kwon, Jeong, Park, & Yoon (2024a); Zhang, Yu, Wei, Zhao, & Xiao (2024）。每種范式的代表性方法如下：在基于CLIP的方法中，CLIP-ES（Lin et al. (2023)是一種無需訓練的、由文本驅動的Grad-CAM，可以直接定位類別區(qū)分性區(qū)域；而ExCEL（Yang et al. (2025b)使用補丁-文本對齊來增強類別定位和邊界清晰度。在基于擴散的方法中，DiG（Yoon et al. (2024a）結合了預訓練的擴散嵌入以促進區(qū)域級連續(xù)性，iSeg（Sun et al. (2024a）迭代優(yōu)化擴散模型的交叉注意力以生成更空間連貫的掩碼）。

通過可視化基于CLIP和基于擴散的CAMs（圖1a），我們觀察到不同的行為：基于CLIP的方法強調類別定位，而基于擴散的方法增強空間連貫性。這些觀察結果表明了它們之間的潛在互補性。為了進一步評估這一點，我們進行了一項實驗（圖1b），比較了兩個分支預測的分割掩碼以及與真實邊界內部距離的準確性。具體來說，讓?Ω表示真實對象邊界，d(p)是從像素p到?Ω的最短歐幾里得距離；對于距離區(qū)間I和分支b∈{clip, diff}，我們定義內部距離準確性為

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號