在线?国产?精品?播放?VA,998av资源影音先锋,日韩无码一区二区三区

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

PCC引導的時空Transformer：基于關鍵點交互與動態區域感知的視頻人體姿態估計新范式

《Alexandria Engineering Journal》：PCC-guided transformer with keypoint-based interaction and dynamic region-sensitive for human pose estimation

【字體：大中小】 時間：2026年03月02日 來源：Alexandria Engineering Journal 6.8

編輯推薦：

　　針對復雜場景下人體關鍵點因遮擋、運動模糊等因素導致可見性差異大、傳統方法難以精準檢測的挑戰，大連海洋大學信息科學與工程學院的研究團隊開展了一項“PCC-guided transformer with keypoint-based interaction and dynamic region-sensitive for human pose estimation”的研究。他們設計了一個新穎的時空特征學習框架，包含關鍵點感知時空編碼器（KAST）、動態區域敏感編碼器（DRS）以及基于皮爾遜相關系數的聯合正負樣本訓練熱圖損失函數（PCC-JTHL），實現了對不同可見性關鍵點的差異化特征學習與優化。該方法在PoseTrack2017和PoseTrack2018等公開數據集上取得了優異的檢測性能，為視頻人體姿態估計任務提供了高效穩健的解決方案。

在人工智能的浪潮中，計算機視覺正以前所未有的速度改變著我們對世界的感知與交互方式。其中，人體姿態估計——這項旨在從圖像或視頻中精準定位人體關節位置的技術，已成為智能監控、人機交互、運動分析乃至健康監測等諸多前沿應用的基石。想象一下，未來健身房里的AI私教能實時糾正你的動作姿勢，或是在擁擠的公共空間，智能系統能流暢追蹤每個人的行為軌跡，這一切都離不開高效、魯棒的人體姿態估計技術。

然而，理想很豐滿，現實卻很“骨感”。當我們將目光從精心擺拍的靜態圖片轉向真實世界中動態、連續的視頻流時，一系列嚴峻的挑戰便浮出水面。遮擋是最常見的“搗蛋鬼”——一個人可能被另一個人、物體甚至自己的肢體部分遮擋；快速運動帶來的模糊會讓關節輪廓變得難以辨認；光照變化、復雜背景同樣會干擾模型的“視線”。更棘手的是，視頻中還存在大量“完全不可見”的關節，它們或因嚴重遮擋，或因移出畫面而徹底“消失”。傳統的基于靜態圖像的方法，或是簡單地將視頻視為獨立幀序列處理的策略，往往忽略了視頻數據中蘊含的寶貴時空線索，導致在復雜場景下性能驟降，檢測結果不穩定、不連續。

為此，由大連海洋大學信息科學與工程學院Jianhao Xu、 Weibo Song、 Weiye Cao、 Shuang Cao、 Zhiqian He組成的研究團隊，決心攻克這一難題。他們獨辟蹊徑，設計了一個名為“PCC引導的Transformer，具備基于關鍵點的交互和動態區域感知能力”的時空特征學習框架。這項開創性的研究成功實現了在充滿挑戰的視頻場景中對人體姿態的精確估計，其研究成果已發表于國際知名期刊《Alexandria Engineering Journal》。

為了系統性地解決上述問題，研究人員構思并實現了一套包含多個創新組件的技術方案。首先，他們采用“自上而下”的流程，利用人體檢測器定位視頻目標幀中的每個人，并擴展其邊界框以確保信息完整。接著，他們定義一個包含目標幀及其前后若干幀的局部時間窗口，將這些幀中對應的人體區域裁剪出來，共同輸入模型。模型的核心是一個強大的骨干網絡（ViT-L），用于并行提取窗口內各幀的視覺特征，這對高可見性關節的檢測非常有效。針對低可見性關節，團隊精心設計了兩大編碼器：關鍵點感知時空編碼器（KAST） 引入了可學習的關鍵點令牌，并通過一種新穎的時空注意力機制，促使模型在時空維度上交互特征，并聚焦于與關鍵點語義相關的視覺區域；動態區域敏感編碼器（DRS） 則受人類視覺系統啟發，通過差分機制計算注意力分數，引導模型自動關注與目標幀差異顯著的動態區域，從而捕捉豐富的運動線索。最后，對于完全不可見的關節，他們創新性地引入了基于皮爾遜相關系數的聯合正負樣本訓練熱圖損失（PCC-JTHL）。與主流動態區域敏感掩碼不可見關節訓練損失的策略不同，PCC-JTHL利用皮爾遜相關系數的全局統計特性，將不可見關節作為負樣本與可見關節一起進行聯合訓練，在擴大有效訓練樣本量的同時，增強了模型對不同可見性水平關鍵點的適應能力。最終，通過一個由MLP頭和經典頭組成的聯合檢測頭，模型輸出預測的姿態熱圖。

主要研究結果如下：

•
整體框架有效性驗證：研究提出的完整框架在PoseTrack2017和PoseTrack2018兩個大規模視頻姿態估計基準數據集上進行了全面評估。如表1和表2所示，該方法取得了當前最優（state-of-the-art）的性能。在PoseTrack2017上，其平均精度（mAP）達到87.1，顯著優于其他19種先進方法，并在所有身體部位（肩、肘、腕、髖、膝、踝）的檢測上都取得了最高的AP，其中在檢測難度最大的踝關節上提升尤為顯著（+2.8 AP）。在PoseTrack2018上，該方法同樣以84.1的mAP位居榜首，特別是在髖、膝、踝等對整體動作估計重要且難檢測的部位上，相對于次優方法有0.5至1.0的AP提升。這些結果充分證明了該框架在處理復雜視頻場景、應對不同可見性關鍵點方面的強大能力。
•
核心模塊的貢獻分析：通過詳盡的消融實驗，研究人員逐一驗證了KAST、DRS和PCC-JTHL三個核心創新組件的必要性。如表3所示，移除以經典Transformer塊替換KAST、移除DRS中的差分計算機制、或將PCC-JTHL替換為傳統的掩碼MSE損失，分別會導致mAP下降0.6、0.4和2.0。這表明基于關鍵點的時空特征交互、對動態區域的優先關注以及PCC驅動的聯合訓練策略，均為最終性能的提升做出了關鍵且不可替代的貢獻。
•
KAST編碼器設計探索：為了尋找最優的時空特征交互方式，團隊比較了多種方案（表4）。用3D卷積塊、可變形卷積或經典Transformer編碼器替代KAST，均導致性能下降。特別是，簡單地將關鍵點令牌插入圖像塊序列（類似TokenPose的做法）效果不佳。這證實了KAST所采用的、通過關鍵點令牌引導的、特定的交叉注意力與自注意力交替進行的交互機制，能夠更有效地完成面向姿態估計任務的時空特征提煉。
•
PCC-JTHL損失函數優勢：針對聯合正負樣本訓練策略，團隊比較了不同損失函數的效果（表7）。實驗表明，皮爾遜相關系數（PCC）作為損失函數效果最佳，均方誤差（MSE）和余弦相似度（CS）表現較差。這驗證了PCC的全局統計特性（如利用中心化真值作為權重、進行全局標準差約束）能夠更好地平衡因引入大量負樣本（不可見關節）帶來的樣本不均衡問題，并驅動模型在更廣闊的特征空間中學習。
•
時間窗口配置影響：研究還探討了局部時間窗口大小對模型性能的影響（表6）。實驗發現，采用目標幀及其前后各一幀（共三幀）作為輸入，能在提供足夠時空上下文信息與計算開銷之間取得良好平衡，性能達到飽和。僅使用目標幀及前一幀，或加入更遠幀，并未帶來顯著增益。

結論與意義：本研究成功提出并驗證了一個新穎的、專為視頻人體姿態估計設計的時空特征學習框架。該框架的核心貢獻在于針對高、低、完全不可見三種不同可見性水平的關鍵點，設計了差異化的學習策略：利用強骨干網絡處理高可見性關節；通過KAST和DRS編碼器挖掘時空上下文以補償低可見性關節的特征信息；創新性地采用PCC-JTHL損失函數將完全不可見關節納入訓練，擴大樣本并提升模型泛化能力。大量實驗表明，該方法在主流基準數據集上達到了領先水平，顯著提升了在遮擋、運動模糊等挑戰性場景下的姿態估計魯棒性和準確性。

這項工作的意義深遠。它不僅為視頻人體姿態估計這一核心計算機視覺任務提供了一種高效、強大的新解決方案，其提出的模塊化設計思想（針對不同問題設計專用組件）和關鍵技術（如基于關鍵點的時空交互、動態區域先驗、PCC全局損失）也具有很好的普適性和啟發性，可被借鑒應用于其他涉及時空建模、遮擋處理、樣本不均衡的視覺任務中，如視頻目標檢測、行為識別、三維人體重建等。隨著視頻數據在安防、體育、醫療、娛樂等領域的爆炸式增長，這項研究為推動相關視覺智能系統的實際應用落地提供了堅實的技術支撐。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號