《Pattern Recognition Letters》:Skeleton-Based Estimation of Interaction Readiness via Spatio-Temporal Graph Convolution
編輯推薦:
基于骨骼的交互準備度估計方法SEIR采用兩流時空圖卷積網絡,通過局部密集連接和跨流注意力模塊提升特征融合,結合概率聚合生成交互準備度標量。實驗表明該方法在NTU-RGB+D 120數據集上top-1準確率達82.52%,在真實場景中ROC-AUC達0.9687,參數量僅8.30M,可滿足實時應用需求。
袁俊澤|瓦埃勒·M·穆罕默德|曼努埃爾·費雷·佩雷斯|何塞·L·馬丁內斯·拉斯特拉
芬蘭坦佩雷大學工程與自然科學學院FAST-Lab
摘要
評估一個人參與互動的意愿是實現與機器自然交互的關鍵前提。在這項工作中,我們探索了一種基于骨骼的方法來估計人類動作中的互動意愿。我們采用了一個雙流時空圖卷積網絡作為核心架構,并對核心架構進行了兩項改進:局部密集連接(LDC),它增強了多尺度特征的流動;以及跨流注意力(CSA)模塊,使模型能夠有效地關聯關節和骨骼特征。我們沒有直接對動作進行分類,而是引入了一種概率聚合策略,生成一個表示互動意愿的標量度量,這有助于模型更好地泛化到現實世界場景中。在處理過的NTU-RGB+D 120數據集上的實驗表明,所提出的方法達到了82.52%的top-1準確率,優于基礎模型。此外,在真實世界數據上的實驗中,ROC-AUC值為0.9687,表明該方法在參數量較少的情況下(8.30 M)仍具有魯棒性和泛化能力。盡管該方法相對輕量級,但它為需要快速、可解釋性評估的場景(如人機交互)提供了一個實用的解決方案。
引言
機器人越來越多地被部署在與人類共享的空間中——工廠、商店、醫院和家庭。在這些環境中,檢測一個人是否打算與附近的機器人互動對于確保人機交互(HRI)的安全性和流暢性至關重要。如果機器人能夠實時量化即將發生的互動的可能性,它就可以主動準備并做出響應,從而提供更加自然、以人為中心的幫助。我們將這種互動的可能性稱為“互動意愿”,即一個人在短時間內發起互動的意愿程度,這取決于最近的視覺觀察結果。數十年的社會心理學研究表明,揮手、舉臂或搖頭等人類動作是人際互動的可靠前兆[1]。如果機器人能夠實時觀察到這些動作,并將其轉化為對互動意愿的明確估計,它就可以在物理接觸之前調整傳感器并規劃協作動作。這種預見不僅提高了任務效率,還提供了更加流暢、自然的用戶體驗。
目前,機器人通常作為被動接收者行動,只有在接收到人類指令后才會進行互動。這種非主動的互動模式導致人機交互效率低下,無法為人類提供自然的互動體驗。為了完成更復雜和多樣的任務,機器人不能僅僅依賴于離線編程和預定義的指令。機器人需要具備從人類動作中估計自然互動信號的能力。這就引出了一個關鍵挑戰:如何使機器人能夠在實時且高可靠性的基礎上,根據觀察到的人類動作來估計互動意愿,同時在不同控制環境和真實世界場景之間保持魯棒性。
在本文中,我們解決了上述挑戰,并做出了以下貢獻:
•基于骨骼的互動意愿估計(SEIR)。我們提出了一種方法,該方法使用雙流時空圖卷積網絡(2s-STGCN)并利用人類骨骼序列來估計互動意愿。
•局部密集連接(LDC)。我們在連續的時空圖卷積(STGC)塊之間引入了局部密集連接策略,以增強層間的信息流動,從而充分利用骨骼序列的表征能力。
•跨流注意力(CSA)。我們應用了跨流注意力模塊來捕捉關節流和骨骼流之間的全局關系,進一步增強了學習到的特征。
•概率聚合。我們聚合了高意愿動作的類別后驗概率,這種策略彌合了控制數據集和真實世界之間的差距,并通過提供動作級別的洞察力增強了可解釋性。
本文的結構如下:第2節回顧了社會交互識別、人機交互(HRI)中互動意愿檢測以及基于骨骼的人類動作識別(HAR)的相關文獻。第3節介紹了SEIR方法,詳細說明了其架構、局部密集連接、跨流注意力和概率聚合策略。第4節報告了在處理過的NTU-RGB+D 120數據集和真實世界數據上的實驗結果及討論。第5節總結了本文,并討論了局限性和未來工作方向。
實驗和討論
為了驗證SEIR的準確性和泛化能力,我們進行了包括兩部分在內的全面實驗。首先,在廣泛采用的NTU-RGB+D 120數據集上評估了SEIR的識別能力,以確定在受控條件下的基線性能。隨后,我們使用在真實環境中收集的人類骨骼數據來檢驗SEIR的泛化能力。
結論
我們提出了SEIR,這是一種基于骨骼的方法,用于從人類動作中估計互動意愿。SEIR基于雙流時空圖卷積網絡(2s-STGCN),并結合局部密集連接(LDC)和跨流注意力(CSA),通過概率聚合輸出一個標量意愿得分。在處理過的NTU-RGB+D 120數據集和真實世界數據上的實驗表明,該方法具有強大的有效性和泛化能力,且在Jetson AGX Orin上運行時,每個75幀的視頻片段僅需15.71毫秒,參數量為8.30M,實現了實時處理。
CRediT作者貢獻聲明
袁俊澤:撰寫——原始草稿、驗證、軟件開發、方法論研究、數據分析、概念構建。瓦埃勒·M·穆罕默德:撰寫——審閱與編輯、驗證、監督、方法論研究、數據分析、概念構建。曼努埃爾·費雷·佩雷斯:監督、研究、概念構建。何塞·L·馬丁內斯·拉斯特拉:撰寫——審閱與編輯、監督、項目管理、方法論研究、資金獲取、概念構建。
利益沖突聲明
作者聲明他們沒有已知的財務利益或個人關系可能影響本文的研究結果。
致謝
這項研究部分得到了歐盟“地平線歐洲”研究與創新計劃(項目編號101135707)的資助。該編號對應于名為“多模態多方面整體人機交互”(Multi-Modal and Multi-Aspect Holistic Human-Robot Interaction)的研究項目。