通過偽立體感知技術,從單目圖像重建相機空間中的手部網格
《Knowledge-Based Systems》:Camera-Space Hand Mesh Reconstruction from a Monocular Image via Pseudo Stereo Perception
【字體:
大
中
小
】
時間:2026年02月27日
來源:Knowledge-Based Systems 7.6
編輯推薦:
三維手建模,偽立體系統,自適應動態卷積,Transformer,跨數據集泛化
郭少翔|蔡青|陳萬坤|孫靜毅|于輝|董俊宇
中國海洋大學計算機科學與技術學院,青島,266100,中國
摘要 從相機空間的單目圖像中恢復可靠的三維(3D)手部網格仍然具有很高的挑戰性,尤其是在編碼細粒度度量深度幾何結構時。為了解決這一挑戰,我們提出了一種新穎的深度學習模型,該模型在估計相機空間中手的絕對位置的同時,增強了重建網格的細節。具體來說,我們的模型采用了一個共享權重的特征編碼器,與深度回歸頭集成在一起,以提取手部的潛在表示并預測初始的粗略深度圖。一個關鍵組成部分是偽立體系統(Pseudo Stereo System),它從左視圖特征和視差線索生成偽右手特征,并使用靈活的特征匹配模塊建立幾何約束。這種設計使模型能夠在訓練時的幾何監督下學習到具有深度感知的表示,而推理僅依賴于單個RGB圖像。通過這種設計,密集的手部深度估計有效地由視差圖回歸引導。最后,基于Transformer的恢復模塊結合使用2D圖像平面和深度特征來推斷3D手部網格。在FreiHAND數據集上的廣泛實驗表明,我們的模型在以相機為中心的3D手部重建方面顯著優于現有方法,并且在以相機為中心和以根點為參考的設置中都表現出強大的泛化能力。我們的代碼可在以下鏈接公開獲取:
https://github.com/ShaoXiang23/Pseudo-Stereo-Hand 。
引言 手部姿態和網格估計(HPME)可以從圖像中重建稀疏的手部關節關鍵點或密集的手部網格關鍵點。近年來,HPME已成為計算機視覺領域的一個突出研究課題[1]、[2]、[3]、[4]、[5]、[6]。HPME的突出地位主要歸功于其廣泛的應用前景,包括虛擬現實、增強現實、機器人自動化和輔助醫療保健。根據輸入方式的不同,HPME可以分為兩種主要類型:基于深度的HPME[7]、[8]、[9]、[10]和基于單目的HPME[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]。后者進一步細分為以根點為參考的HPME和以相機為中心的HPME。
大多數以根點為參考的HPME方法,如劉等人[20]、庫倫等人[21]、陳等人[22]、林等人[23]和郭等人[24]提出的方法,使用手的根關節(例如手掌或手腕)作為坐標系的原點。然后,它們在這個局部空間中預測稀疏的關節或密集的頂點坐標。然而,它們無法捕捉手在以相機為中心的坐標系中的絕對位置和運動軌跡,這限制了它們的實際應用。最近,出現了以相機為中心的HPME方法,例如陳等人的相機空間網格恢復(CMR)[25]和黃等人的神經投票場(NVF)[26]。然而,這些以相機為中心的方法的性能仍然有限,主要是由于難以可靠地編碼細粒度的相機空間幾何結構,特別是在深度軸上,這對于準確的三維(3D)定位至關重要。
為了解決上述挑戰,我們提出了一種新的以相機為中心的HPME模型,稱為PS-HPME (Pseudo Stereo Hand and Pose and Mesh Estimation)模型,該模型在學習以相機為中心的手部重建的魯棒深度感知表示的同時,保持了手部網格重建的語義保真度。如圖1所示,之前的方法,如陳等人的方法[25],通過將3D手部頂點與二維(2D)線索對齊,并將手的根關節注冊在相機坐標系中來實現以相機為中心的HPME。這些方法通常采用兩階段估計框架:它們首先從圖像特征中估計2D關節熱圖或3D以根點為參考的手部網格,然后應用單獨的后處理階段來恢復相機空間中的根關節位置。相比之下,PS-HPME引入了一種統一的設計,其中偽立體系統(PSS)在訓練期間通過立體啟發式的特征約束注入幾何正則化。這使得模型能夠在單目推理下直接融合2D圖像平面(UV)和深度特征,以重建與相機為中心的坐標系對齊的可靠3D手部網格。
我們的PS-HPME模型包括三個主要階段:特征編碼器、PSS和手部網格恢復。在第一階段,共享權重的圖像編碼器提取手部特征(稱為左特征),深度回歸頭預測粗略的手部深度圖。在偽立體機制的引導下,模型將粗略的深度圖轉換為視差圖,然后由視差編碼器處理以捕獲手部空間特征。在第二階段,左特征和視差特征由自適應視差動態卷積(ADDC) 模塊處理,以生成偽右手特征。偽右手特征與左特征一起,通過基于特征的匹配模塊建立立體啟發的幾何約束。在訓練期間,輔助的右視圖特征(從合成的右視圖圖像中提取)和真實視差(從渲染的深度中得出)僅 作為輔助的幾何監督來規范學習到的表示。在推理時,模型僅依賴于單個RGB圖像和學到的深度感知表示。在最后階段,多尺度Transformer模塊從左特征和聚合表示中回歸3D手部頂點。我們進一步結合了一種新的跨注意力交互(CAI) 模塊,該模塊在不同尺度上聯合編碼空間和深度特征,確保重建的以相機為中心 3D手部網格從局部到全局的空間一致性。我們研究的主要貢獻有三個方面:
(1) 我們提出了PS-HPME ,一種用于以相機為中心的3D手部網格重建的新框架。PS-HPME利用訓練時的立體啟發式幾何監督學習深度感知表示,而在推理時僅需要單個RGB圖像。廣泛的實驗表明,PS-HPME在以相機為中心的準確性方面超越了現有方法,具有更快的推理速度和強大的跨數據集泛化能力。
(2) 我們設計了一種新的PSS ,它從2D和視差表示中聚合深度感知特征。它集成了一種ADDC 模塊來生成偽右手特征,以及一個基于特征的立體匹配模塊,用于在左特征和偽右手特征之間施加幾何約束。
(3) 我們提出了一種新的CAI 模塊,它在不同尺度上聯合編碼空間和深度線索,增強了重建的以相機為中心的3D手部網格中局部和全局表示之間的一致性。
部分摘錄 基于深度的HPME 基于深度的HPME方法直接從手部深度圖中估計稀疏的3D關節或密集的網格頂點。Moon等人[8]將深度輸入體素化,以估計每個體素的關節點概率,而Ge等人[27]將其轉換為3D點云以進行姿態估計。Xiong等人[28]引入了一個基于錨點的回歸框架。Ren等人[9]融合了跨視圖深度特征以恢復手部姿態和網格,Zhang等人[11]使用單流深度網絡共同估計手部
方法 在本節中,我們描述了所提出方法的實現細節。我們在推理時從單個RGB圖像中估計以相機為中心的3D手部網格,同時利用訓練時的幾何監督作為輔助正則化來學習深度感知表示。如圖2所示,整個框架包括三個主要組成部分:特征編碼器 、PSS 和手部網格恢復 模塊。特征編碼器 包括一個共享權重的圖像編碼器、一個深度回歸
數據集 我們在四個公開可用的基準數據集上評估了我們的方法:
FreiHAND [46] 包含了來自32名受試者的130,240 張訓練圖像,這些受試者執行了各種手部姿態,要么是空手,要么是與日常物品互動。評估集包括在戶外和辦公室環境中捕獲的3,960 個樣本,帶有手部姿態和網格的3D注釋。
渲染手部姿態數據集(RHD) [12] 是一個由20個角色執行39個預定義手勢生成的合成數據集。RHD包括
監督要求和可擴展性 我們的PSS依賴于真實的3D網格/深度注釋來派生訓練時的幾何線索(例如,渲染的手部深度和相應的視差圖),這可能限制了在沒有此類3D監督的情況下直接擴展到實際數據集的能力。一個有前途的方向是用可擴展的替代品替換這些線索,這些替代品來自較弱的監督,同時保持PSS作為幾何規范器的角色。一方面,2D關鍵點以及語義約束(例如,手
結論 我們提出了PS-HPME,這是一種用于單目相機為中心的3D手部網格估計的新框架,它有效地利用了深度感知的幾何線索,同時保持了高保真度的手部網格重建。該模型的核心是PSS,它包括自適應視差動態卷積和基于特征的立體匹配模塊。這些組件通過學習立體啟發的特征約束,使得能夠準確編碼相機空間的幾何結構
CRediT作者貢獻聲明 郭少翔: 撰寫——原始草稿、可視化、驗證、軟件、方法論、概念化。蔡青: 撰寫——審閱與編輯、監督。陳萬坤: 可視化。孫靜毅: 數據管理。于輝: 撰寫——審閱與編輯、監督。董俊宇: 撰寫——審閱與編輯、監督。
利益沖突聲明 作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。
致謝 本工作得到了中國國家重點研發計劃(項目編號2018AAA0100602)、國家自然科學基金(項目編號62102338)和山東省自然科學基金(項目編號ZR2020QF031)的支持
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號