HandFS:一種基于小波的頻域-空間域特征解耦網(wǎng)絡(luò),用于在遮擋條件下進(jìn)行3D手部姿態(tài)估計(jì)
《Pattern Recognition》:HandFS: Wavelet-guided Frequency-Spatial Domain Feature Decoupling Network for 3D Hand Pose Estimation Under Occlusion
【字體:
大
中
小
】
時(shí)間:2026年03月03日
來源:Pattern Recognition 7.6
編輯推薦:
3D手姿態(tài)估計(jì)在復(fù)雜手-物體交互場景中面臨嚴(yán)重遮擋和精細(xì)細(xì)節(jié)(如指尖)丟失的挑戰(zhàn)。本文提出HandFS網(wǎng)絡(luò),通過Haar小波變換實(shí)現(xiàn)頻域(捕捉指尖等高頻細(xì)節(jié))和空域(保留手掌等低頻結(jié)構(gòu))的協(xié)同特征解耦,并設(shè)計(jì)跨域特征融合器(CDF)和物體特征補(bǔ)償器(OFC)增強(qiáng)遮擋區(qū)域的魯棒性,在HO3Dv2和DEX-YCB數(shù)據(jù)集上驗(yàn)證有效性。
潘慧敏|王希涵|牛少佳|高全利
西安理工大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,中國陜西省西安市臨潼區(qū)沙岸路58號(hào),710600
摘要
在手與物體交互的場景中,3D手部姿態(tài)估計(jì)仍然具有挑戰(zhàn)性,這主要是由于嚴(yán)重的遮擋以及細(xì)粒度細(xì)節(jié)(如指尖和手指邊緣)的丟失。為了解決這些問題,我們提出了HandFS,這是一個(gè)基于頻率-空間域協(xié)同特征解耦的姿態(tài)估計(jì)網(wǎng)絡(luò)。在頻率域中,HandFS使用Haar小波變換將手部特征分解為高頻成分(代表指尖和指關(guān)節(jié))和低頻成分(代表手掌)。在空間域中,采用局部-全局雙分支結(jié)構(gòu)來捕捉細(xì)節(jié)和全局拓?fù)潢P(guān)系。我們還設(shè)計(jì)了一個(gè)跨域特征融合器(CDF),該融合器利用語義對齊機(jī)制和跨域融合注意力。CDF整合了高頻和局部特征以增強(qiáng)微觀結(jié)構(gòu)細(xì)節(jié),同時(shí)融合低頻和全局特征以保持手部結(jié)構(gòu)的生理合理性。此外,引入了對象特征補(bǔ)償器(OFC)通過利用對象語義進(jìn)行空間特征補(bǔ)償,從而提高復(fù)雜場景中的遮擋魯棒性。在HO3Dv2和DEX-YCB等公共數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明,我們的方法在手部姿態(tài)估計(jì)領(lǐng)域表現(xiàn)出優(yōu)異的準(zhǔn)確性和穩(wěn)定性。我們的代碼可在
https://github.com/hhhuimmmin/HandFS獲取。
引言
3D手部姿態(tài)估計(jì)在機(jī)器人操作、虛擬現(xiàn)實(shí)和醫(yī)療康復(fù)等領(lǐng)域具有重要的應(yīng)用[1]、[2]、[3]。近年來,基于單目RGB圖像的3D手部姿態(tài)估計(jì)方法取得了顯著進(jìn)展[4]、[5]、[6]、[7]、[8]、[9]。然而,在復(fù)雜的手與物體交互場景中估計(jì)手部姿態(tài)仍然是一個(gè)主要挑戰(zhàn):交互會(huì)導(dǎo)致嚴(yán)重的遮擋,而像指尖這樣的細(xì)特征容易丟失,這兩者都會(huì)導(dǎo)致估計(jì)誤差。
本文針對使用單目RGB圖像的手與物體交互場景中的嚴(yán)重遮擋干擾和細(xì)特征丟失問題進(jìn)行了研究,徹底分析了現(xiàn)有主流方法的局限性。當(dāng)前的主流方法主要依賴于空間域特征提取網(wǎng)絡(luò)來構(gòu)建手部特征,但在處理遮擋區(qū)域和細(xì)細(xì)節(jié)時(shí)存在明顯不足。這些方法存在一個(gè)重要的方法論差距:它們僅依賴于空間域特征提取,而沒有明確的頻率-空間域解耦,無法同時(shí)保留細(xì)粒度細(xì)節(jié)(例如指尖紋理)和全局結(jié)構(gòu)信息。此外,缺乏魯棒的遮擋補(bǔ)償,因?yàn)榛谧⒁饬Φ脑鰪?qiáng)方法在嚴(yán)重遮擋下通常會(huì)導(dǎo)致有效特征的過度衰減[10]、[11]、[12]、[13]、[14],而依賴先驗(yàn)知識(shí)[15]、[16]或合成數(shù)據(jù)[17]、[18]的方法由于合成數(shù)據(jù)與真實(shí)環(huán)境之間的不匹配而難以泛化到真實(shí)的遮擋場景。
為了填補(bǔ)這些方法論空白,本文提出了一種基于頻率-空間域特征融合的3D手部姿態(tài)估計(jì)網(wǎng)絡(luò)(HandFS)。為了解決由于缺乏明確的頻率-空間域協(xié)同解耦而導(dǎo)致細(xì)特征丟失的問題,我們構(gòu)建了一個(gè)由Haar小波變換引導(dǎo)的頻率-空間域協(xié)同特征解耦(FSFD),有效捕獲了指尖和手指邊緣等細(xì)特征。據(jù)我們所知,這是首次將Haar小波變換應(yīng)用于手部姿態(tài)估計(jì)。為了補(bǔ)充這一點(diǎn),設(shè)計(jì)了一個(gè)跨域特征融合器(CDF),以整合頻率域和空間域特征,增強(qiáng)細(xì)節(jié)的同時(shí)保持手部的全局拓?fù)浣Y(jié)構(gòu)。為了克服遮擋補(bǔ)償不足的局限性,引入了對象特征補(bǔ)償器(OFC),動(dòng)態(tài)地將語義信息融合到手部特征空間中以補(bǔ)充遮擋區(qū)域的數(shù)據(jù)。在HO3Dv2和DEX-YCB等代表性數(shù)據(jù)集上的廣泛實(shí)驗(yàn)驗(yàn)證了所提方法的優(yōu)越性能。總體而言,本工作實(shí)現(xiàn)了以下具體和可衡量的目標(biāo):
1. 為了解決手與物體交互場景中的嚴(yán)重遮擋和細(xì)粒度特征的丟失,我們提出了一種基于單目RGB圖像的手部姿態(tài)估計(jì)的新頻率-空間域特征融合網(wǎng)絡(luò)(HandFS)。
2. 為了捕捉像指尖這樣的細(xì)粒度高頻細(xì)節(jié),我們設(shè)計(jì)了一種由Haar小波變換引導(dǎo)的頻率-空間域協(xié)同特征解耦(FSFD)。
3. 為了在嚴(yán)重遮擋的區(qū)域恢復(fù)手部姿態(tài),我們引入了一個(gè)跨域特征融合器(CDF),以明確保留全局拓?fù)浣Y(jié)構(gòu),同時(shí)增強(qiáng)細(xì)細(xì)節(jié),并引入了一個(gè)基于語義的對象特征補(bǔ)償器(OFC)進(jìn)行恢復(fù)。
4. 為了驗(yàn)證所提出的HandFS網(wǎng)絡(luò)的有效性和遮擋魯棒性,我們在HO3Dv2和DEX-YCB數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)和定性分析。
部分摘錄
基于RGB圖像的3D手部姿態(tài)估計(jì)
現(xiàn)有的基于RGB圖像的3D手部姿態(tài)估計(jì)方法可以分為無模型方法[5]、[6]、[9]、[20]、[21]、[22]、[23]和基于模型的方法[11]、[24]、[25]、[26]、[27]、[28]、[29]。無模型方法直接從單張RGB圖像回歸3D關(guān)節(jié)坐標(biāo)或網(wǎng)格頂點(diǎn)位置。GE等人[5]提出了一種端到端可訓(xùn)練的圖卷積手部網(wǎng)格生成方法,通過增強(qiáng)形狀表示和局部
系統(tǒng)概述
所提出的HandFS方法的總體架構(gòu)如圖1所示。該網(wǎng)絡(luò)架構(gòu)包括五個(gè)核心組件:編碼器、頻率-空間域協(xié)同特征解耦(FSFD)、跨域特征融合器(CDF)、對象特征補(bǔ)償器(OFC)和回歸器。需要注意的是,F(xiàn)SFD包括一個(gè)頻率域分支和一個(gè)空間域分支。每個(gè)組件的組成和數(shù)據(jù)流過程如下所述
實(shí)驗(yàn)
為了全面評估所提出的HandFS框架在復(fù)雜手與物體交互場景中的有效性和遮擋魯棒性,本研究在兩個(gè)主要基準(zhǔn)數(shù)據(jù)集HO3Dv2和DEX-YCB上進(jìn)行了系統(tǒng)的實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)涵蓋了四個(gè)核心維度:定量比較、定性分析、消融研究和統(tǒng)計(jì)驗(yàn)證。定量實(shí)驗(yàn)將所提出的方法與現(xiàn)有方法在指標(biāo)上進(jìn)行了比較
結(jié)論
本文通過提出基于頻率-空間域協(xié)同解耦的手部姿態(tài)估計(jì)網(wǎng)絡(luò)HandFS,解決了手與物體交互場景中的遮擋干擾和細(xì)節(jié)丟失問題。其核心貢獻(xiàn)和優(yōu)勢體現(xiàn)在三個(gè)關(guān)鍵設(shè)計(jì)中:首先,我們引入了頻率-空間域協(xié)同特征解耦(FSFD)。通過Haar小波變換將手部特征分解為高頻細(xì)節(jié)和低頻結(jié)構(gòu)成分,
局限性和未來工作
當(dāng)前方法的一個(gè)主要局限性是它僅關(guān)注精確的手部姿態(tài)估計(jì),而沒有聯(lián)合預(yù)測物體的6D姿態(tài)。雖然所提出的頻率-空間域解耦機(jī)制有效地捕獲了細(xì)粒度手部特征并在一定程度上緩解了遮擋挑戰(zhàn),但由于缺乏明確的對象姿態(tài)監(jiān)督,限制了模型理解手與物體之間復(fù)雜物理交互(例如穿透檢查)的能力。
為了
CRediT作者貢獻(xiàn)聲明
潘慧敏:撰寫——原始草稿、可視化、驗(yàn)證、方法論、概念化。王希涵:可視化、方法論、數(shù)據(jù)整理。牛少佳:撰寫——審閱與編輯、驗(yàn)證、監(jiān)督。高全利:撰寫——審閱與編輯、資金獲取。
利益沖突聲明
作者聲明他們沒有已知的可能會(huì)影響本文工作的競爭性財(cái)務(wù)利益或個(gè)人關(guān)系。
致謝
本工作得到了中國自然科學(xué)基金(編號(hào)62072362、12101479)、陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃(編號(hào)2021JQ-660和2024JC-YBMS-531)、陜西省創(chuàng)新能力支持計(jì)劃項(xiàng)目(編號(hào)2024ZC-KJXX-034)以及西安市重大科技成果轉(zhuǎn)化產(chǎn)業(yè)化項(xiàng)目(編號(hào)23CGZHCYH0008)的支持。
生物通微信公眾號(hào)
生物通新浪微博
- 搜索
- 國際
- 國內(nèi)
- 人物
- 產(chǎn)業(yè)
- 熱點(diǎn)
- 科普
今日動(dòng)態(tài) |
人才市場 |
新技術(shù)專欄 |
中國科學(xué)人 |
云展臺(tái) |
BioHot |
云講堂直播 |
會(huì)展中心 |
特價(jià)專欄 |
技術(shù)快訊 |
免費(fèi)試用
版權(quán)所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯(lián)系信箱:
粵ICP備09063491號(hào)