苍井空大战黑人,人妻人久久精品中文字幕,国产精品集合

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

通過多線索不確定性建模實現的自監督聯合流場與深度估計

《Neural Networks》：Self-Supervised Joint Flow and Depth Estimation via Multi-Cue Uncertainty Modeling

【字體：大中小】 時間：2026年02月28日 來源：Neural Networks 6.3

編輯推薦：

　　提出基于不確定性的自我監督框架UGFD，通過建模光流與深度估計中的任務內和任務間不一致性生成密集不確定性圖，利用上下文感知模塊抑制誤差傳播，并動態調整損失權重以應對非剛性運動和復雜場景，在KITTI等數據集上達到SOTA性能，驗證了零樣本泛化能力。

哈爾濱工程大學計算機科學與技術學院，中國哈爾濱，150001

摘要

從動態場景中理解運動和3D結構是計算機視覺的一個基本挑戰。無監督學習通過無需手動標簽的訓練來降低標注成本；在這一領域，自監督學習通過從數據的內在結構中創建監督信號而具有明顯優勢。雖然這些方法避免了昂貴的標注工作，但在遮擋區域、紋理模糊或非剛性運動情況下仍面臨困難。為了更好地利用運動和結構之間的幾何協同作用，以往的聯合學習框架使用單獨的啟發式方法或簡單的二值掩碼來處理這些挑戰。本文提出了一種新的范式，將這些問題重新定義為統一的不確定性估計問題，其核心原則是利用任務不一致性作為監督信號。我們提出了UGFD（不確定性引導的流和深度估計框架），該框架通過明確建模兩種沖突來源來生成密集的不確定性圖：（1）來自局部梯度不一致性的任務內不一致性；（2）來自估計的光流與深度誘導的場景運動之間的剛性假設違反的任務間不一致性。這種學習到的不確定性不僅用于掩蔽，還主動引導學習過程。我們新穎的上下文感知不確定性（CAU）模塊利用這一信號來防止錯誤傳播，而我們的非剛性驅動（URD）損失則動態地將優化重點放在高模糊區域。通過在一致的不確定性框架下統一處理多種錯誤來源，我們的模型能夠在沒有真實標簽的情況下評估其置信度并進行穩健的估計。在KITTI基準測試上的廣泛評估顯示了其先進的性能，而在Sintel和FlyingThings3D上的零樣本測試則證明了其強大的泛化能力。

引言

光流和深度估計是具有廣泛應用的基礎計算機視覺任務，包括自動駕駛、機器人技術和3D重建（Menze和Geiger，2015年）。自動駕駛車輛依賴精確的深度圖來避障，而光流提供了關鍵的運動信息。聯合估計這些任務的動機在于它們之間的強大協同作用。深度限制了剛性場景的運動，而運動視差為深度提供了強有力的線索。這種相互增強有可能產生比單獨估計每個任務更穩健和連貫的動態環境理解。此外，流和深度的統一表示對于需要一致場景動態感知的下游應用（如增強現實）至關重要。

為了避免高昂的手動標注成本，該領域已大幅轉向自監督學習。這種無監督學習范式通過視頻幀之間的光度一致性創建自己的監督信號（Bayramli等人，2023年；Liu等人，2019b年）。盡管這種方法顯示出潛力（Jiao等人，2021年；Liu等人，2019b年），但在包含顯著遮擋、非剛性運動或動態照明的真實世界場景中仍面臨挑戰。在這些模糊區域，光度信號不可靠，導致估計結果噪聲大且不一致。以往的聯合學習框架（如UnRigidFlow（Liu等人，2019b年）和EffiScene（Jiao等人，2021年）試圖通過利用幾何約束來緩解這些問題。然而，它們通常以有限的方式這樣做，例如通過創建二值掩碼將場景分割為剛性/非剛性部分，或簡單地從損失計算中排除異常值。這種方法放棄了不一致性中的豐富連續信息，并經常通過傳播周圍像素的信息來補償，這可能會擴大錯誤區域，如圖1所示。

本文旨在通過引入一種根本不同的方法來克服這些多方面的挑戰。我們不僅識別和掩蔽異常值，還首先明確估計一個密集的、逐像素的不確定性圖，然后利用它來指導整個學習過程。我們通過使用任務之間和任務內部的不一致性作為這種不確定性估計的主要、連續的監督信號來重新定義問題。我們確定了兩個關鍵的沖突來源：（1）通過流和深度場內的局部梯度不一致性檢測到的任務內不一致性；（2）通過估計的光流與從估計的深度和相機姿態得出的剛性流之間的差異測量的任務間不一致性。這種沖突不是被視為需要掩蔽的錯誤，而是被視為由非剛性、運動邊界或其他模糊性引起的估計不確定性的有價值信號。

基于這一原則，我們引入了不確定性引導的流和深度（UGFD）框架。UGFD首先在像素級別量化不確定性，學習在沒有真實標簽的情況下預測其置信度。然后，這個圖驅動了我們的兩個核心技術貢獻。我們新穎的上下文感知不確定性（CAU）模塊利用這一信號來主動防止來自不可靠區域的錯誤傳播。同時，我們的非剛性驅動（URD）模塊利用任務間沖突動態地將優化重點放在最具挑戰性的區域。如圖2所示，這種統一的不確定性感知模型比簡單的遮擋掩碼捕捉到了更細致的挑戰集，從而實現了更清晰、更準確的估計。我們的貢獻可以總結如下：

•

我們提出了UGFD，一種用于光流、深度及其不確定性自監督聯合學習的新框架。我們提出了一種統一的方法，通過利用任務內和任務間的不一致性作為自監督信號來學習逐像素的不確定性估計，而不是使用不同的啟發式方法來處理遮擋、噪聲、異常值或非剛性問題。

•

我們提出了一種新穎的上下文感知不確定性（CAU）模塊，它主動防止錯誤從不確定區域傳播，而不僅僅是簡單地掩蔽它們。該模塊利用估計的不確定性來指導網絡從可靠、空間上距離較遠的像素采樣特征，同時忽略相鄰但模糊的像素。嵌入式迭代細化（IR）過程進一步改進了估計結果，而無需單獨的損失計算。

•

為了利用任務之間的協同作用，我們引入了非剛性驅動（URD）模塊，將估計的光流與深度誘導的剛性流之間的沖突轉化為動態的、逐像素的損失權重。這迫使網絡將更多的學習能力用于解決由非剛性運動或不準確深度引起的挑戰性不一致性。

•

我們的框架在具有挑戰性的KITTI 2015（Menze和Geiger，2015年）和KITTI 2012（Geiger等人，2012年）基準測試中展示了先進的性能。關鍵的是，我們通過廣泛的零樣本泛化測試驗證了其魯棒性，在包括MPI-Sintel（Butler等人，2012年）和FlyingThings3D（Mayer等人，2016年）在內的未見過的合成數據集上獲得了強有力的定量和定性結果。

本手稿是我們初步會議論文Abdein等人（2025年）的擴展和顯著增強版本。雖然初步工作介紹了不確定性引導細化的基本概念，但期刊版本提出了一個更成熟和原則性的框架。主要改進包括：（i）擴展的不確定性估計器，利用迭代之間的流不一致性來識別更廣泛的不確定區域；（ii）新穎的上下文感知不確定性（CAU）模塊，用更復雜的錯誤預防機制替換了簡單的細化步驟；（iii）集成迭代細化（IR）模塊，用于嵌入式、自適應的估計改進；（iv）通過新的非剛性驅動（URD）模塊形式化任務間不一致性，以動態加權損失函數；（v）詳細擴展技術細節、支持性圖表和實驗驗證，包括更新的先進性比較、模型復雜性分析以及在新的數據集上的穩健泛化測試。

本文的結構如下：第2節討論相關工作。第3節詳細介紹了提出的UGFD框架及其組成部分。第4節展示了我們的實驗設置、定量和定性結果、深入的消融研究以及對模型復雜性和泛化性能的分析。最后，第5節總結了本文并提供了潛在的未來發展方向。

章節片段

光流和深度中的不確定性估計

估計不確定性對于構建可靠的光流和深度感知系統至關重要。早期方法依賴于事后技術，如變分推斷（Wannenwetsch等人，2017年）或重采樣（Kybic和Nieuwenhuis，2011年），這些方法通常與主要估計任務分離。雖然深度學習引入了集成方法，但許多流行技術（如蒙特卡洛Dropout（Milanés-Hermosilla等人，2021年）、貝葉斯網絡（Park等人，2010年）和集成方法（Liu等人）

提出的方法

我們的目標是開發一個自監督框架，該框架在明確建模和利用這些任務中固有的不確定性的同時，聯合估計光流和深度。為此，我們引入了不確定性引導的流和深度（UGFD）框架，如圖3所示。該框架基于漸進式、不確定性感知的細化原則，其中初始估計通過主動結合動態計算的不確定性圖進行迭代改進。

總體

數據集和評估協議

我們的框架在一系列標準基準測試上進行了訓練和評估，以確保對其性能和泛化能力的全面評估。

•

KITTI Raw（Geiger等人，2013年）：這是我們的主要訓練數據集。它包含來自真實世界駕駛場景的大規模立體視頻序列。為了確保公平評估，我們遵循標準協議，并在28,058對圖像對上預訓練我們的模型，同時仔細排除了任何與

結論和未來方向

本文擴展了光流和深度無監督學習中的挑戰范圍，超出了對這些任務中常見的遮擋問題的廣泛研究。這個概念——不確定性——涵蓋了所有由于各種情況（包括光照變化、紋理模糊和遮擋）而可能導致不準確估計的不確定區域。這種不確定性是通過捕獲流和深度梯度中的不一致性來推斷的。

CRediT作者貢獻聲明

Rokia Abdein：寫作——審稿與編輯，撰寫——初稿，可視化，軟件，方法論，概念化。Wei Li：監督，方法論，資金獲取，概念化。Yidan Chen：驗證，軟件，數據管理。Chenghao Li：驗證，軟件，數據管理。Sumi Helal：寫作——審稿與編輯，監督。Moustafa Youssef：寫作——初稿，監督。

利益沖突聲明

作者聲明他們沒有已知的可能會影響本文所述工作的競爭性財務利益或個人關系。

致謝

本研究得到了黑龍江省自然科學基金（LH2023F020）、國家水下聲學技術重點實驗室穩定支持基金（JCKYS2023604SSJS013）以及中央高校基本科研業務費（3072024XX0604）的資助。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號