<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        揭示CLIP模型與擴散模型在弱監(jiān)督語義分割中的互補協(xié)同作用

        《Expert Systems with Applications》:Unveiling the Complementary Synergy of CLIP and Diffusion Models for Weakly Supervised Semantic Segmentation

        【字體: 時間:2026年03月03日 來源:Expert Systems with Applications 7.5

        編輯推薦:

          弱監(jiān)督語義分割中提出ComCD方法,通過整合CLIP模型和擴散模型,設計熵基融合策略優(yōu)化CAM生成,并構建特征對齊解碼器提升分割性能,實驗驗證其在多數據集上優(yōu)于現有方法。

          
        Hang Yao | Yuanchen Wu | Jide Li | Kequan Yang | Jingxin Han | Xiaoqiang Li
        上海大學計算機工程與科學系,中國上海市寶山區(qū)上大路99號,200444

        摘要

        弱監(jiān)督語義分割(WSSS)僅依賴于圖像級標簽,通過生成類別激活圖(CAMs)作為像素級種子,并將其轉換為偽標簽用于分割。最近,一些方法利用對比語言-圖像預訓練(CLIP)或擴散模型在WSSS流程中生成CAMs。然而,如何將這兩種范式結合在一個框架中仍然是一個未充分探索的問題。在這項工作中,我們提出了ComCD(CLIP和擴散模型的互補協(xié)同),它整合了這兩種范式并利用它們的互補性來提高CAM的質量。首先,從CLIP分支和擴散模型分支分別生成特定類別的CAMs。其次,我們設計了一種基于熵的融合方法,將兩個CAMs之間的熵差異映射為可靠性權重,然后將它們融合成一個精細的CAM,并將其轉換為偽掩碼。最后,一個帶有Logit門控模塊的可訓練分割網絡預測權重以融合兩個分支,并產生最終的分割結果。實驗結果表明,所提出的ComCD在WSSS和開放詞匯表語義分割方面優(yōu)于現有的最先進方法。

        引言

        弱監(jiān)督語義分割(WSSS)旨在平衡注釋成本和像素級預測的需求。與需要像素級注釋的完全監(jiān)督方法不同(Chen, Papandreou, Kokkinos, Murphy, & Yuille (2017); Fu, Lou, & Yu (2025)),WSSS使用更經濟的監(jiān)督方式訓練密集的分割模型,包括點注釋(Bearman, Russakovsky, Ferrari, & Fei-Fei (2016), 筆跡(Lin, Dai, Jia, He, & Sun (2016); Vernaza & Chandraker (2017), 邊界框(Lee, Yi, Shin, & Yoon (2021b); Oh, Kim, & Ham (2021))以及圖像級標簽(Wu et al. (2024a); Wu, Ye, Yang, Li, & Li (2024b); Yang et al. (2025b)),從而減少了數據收集和整理的開銷。在這些方法中,圖像級標簽僅指示類別存在而不提供空間定位,因此是最具挑戰(zhàn)性的。在這項工作中,我們采用圖像級標簽進行語義分割。
        在圖像級監(jiān)督下,典型的多階段流程首先訓練一個圖像分類器來生成類別激活圖(CAMs)(Zhou, Khosla, Lapedriza, Oliva, & Torralba (2016))。然后訓練一個細化網絡來進一步改進CAMs(Ahn, Cho, & Kwak (2019); Ahn & Kwak (2018))。最后,在從CAMs派生的偽標簽上訓練一個分割網絡(Kweon, Yoon, & Yoon (2023); Xie, Hou, Ye, & Shen (2022); Yoon, Kwon, Kim, & Yoon (2024b))。為了減少流程開銷,單階段方法將這些步驟集成在一個模型中,該模型同時生成偽標簽并學習像素級掩碼(Ru, Zheng, Zhan, & Du (2023); Wu et al. (2024b); Yang et al. (2024))。然而,由于監(jiān)督不足,CAMs往往只關注具有區(qū)分性的區(qū)域,導致覆蓋不完整和偽標簽噪聲較大,從而降低了WSSS的性能。最近,基于對比語言-圖像預訓練(CLIP)和擴散模型的兩種范式在WSSS中變得突出(Lin et al. (2023); Sun, Cao, Xie, Khan, & Pang (2024a); Yang et al. (2025b); Yoon, Kwon, Jeong, Park, & Yoon (2024a); Zhang, Yu, Wei, Zhao, & Xiao (2024)。每種范式的代表性方法如下:在基于CLIP的方法中,CLIP-ES(Lin et al. (2023)是一種無需訓練的、由文本驅動的Grad-CAM,可以直接定位類別區(qū)分性區(qū)域;而ExCEL(Yang et al. (2025b)使用補丁-文本對齊來增強類別定位和邊界清晰度。在基于擴散的方法中,DiG(Yoon et al. (2024a)結合了預訓練的擴散嵌入以促進區(qū)域級連續(xù)性,iSeg(Sun et al. (2024a)迭代優(yōu)化擴散模型的交叉注意力以生成更空間連貫的掩碼)。
        通過可視化基于CLIP和基于擴散的CAMs(圖1a),我們觀察到不同的行為:基于CLIP的方法強調類別定位,而基于擴散的方法增強空間連貫性。這些觀察結果表明了它們之間的潛在互補性。為了進一步評估這一點,我們進行了一項實驗(圖1b),比較了兩個分支預測的分割掩碼以及與真實邊界內部距離的準確性。具體來說,讓?Ω表示真實對象邊界,d(p)是從像素p到?Ω的最短歐幾里得距離;對于距離區(qū)間I和分支b∈{clip, diff},我們定義內部距離準確性為<
        相關新聞
        生物通微信公眾號
        微信
        新浪微博
        • 搜索
        • 國際
        • 國內
        • 人物
        • 產業(yè)
        • 熱點
        • 科普

        知名企業(yè)招聘

        熱點排行

          今日動態(tài) | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

          版權所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯系信箱:

          粵ICP備09063491號