《ADVANCED ENGINEERING INFORMATICS》:IMU-based recognition of ergonomically unsafe postures in construction work using image encoding and Vision Mamba
編輯推薦:
建筑工地工人體態安全監測研究采用單個腰佩戴IMU傳感器,通過GAF/MTF圖像編碼與Vision Mamba深度學習架構實現多通道時序數據輸入。該方法在VTT-ConIoT數據集上以91.18% F1分數超越18種基線模型,包括CNN、LSTM和Transformer變體,推理速度約122.88ms。IMU的六軸數據經時空特征編碼后,有效解決視覺系統在復雜工地環境中的遮擋和光照問題,為低成本實時安全監測提供新方案。
樸民洙|高東英|全允泰|吳泰坤|樸成希
韓國江原道江原市朱玄路7號,江原 Wonju 國立大學土木與環境工程系,25457
摘要
建筑工地的勞動密集型任務常常導致工人采取不安全的行為,從而增加工作相關肌肉骨骼疾。╓MSD)和嚴重事故(如滑倒或從高處墜落)的風險。這些傷害和事故的一個關鍵因素是身體姿態不自然,而基于攝像頭的系統在雜亂的工作環境中往往無法捕捉到這一現象。為了克服這些限制,人們探索了基于傳感器的監測方法。然而,這些方法通常需要多個可穿戴設備,這使得它們在建筑環境中使用起來成本高昂且不切實際。最近,深度學習技術表明,即使是非常微小的運動信號也可以被用來推斷工人的風險,特別是通過將傳感器數據編碼為圖像輸入到卷積神經網絡(CNN)中;谶@些進展,我們提出了一個更有效的安全監測框架,該框架使用單個腰戴式慣性測量單元(IMU),并結合了專為時間序列傳感器數據設計的 Vision Mamba 視覺架構。IMU 的六個信號被轉換為 Gramian 角度場(GAF)和馬爾可夫轉移場(MTF)圖像,然后作為多通道輸入送入 Vision Mamba 神經網絡。我們在包含高風險姿勢類別的公開 VTT-ConIoT 數據集上評估了該框架的性能。所提出的方法取得了 91.18% 的 F1 分數,優于 18 種經典和深度學習基線模型(包括 CNN、LSTM 和 Transformer 變體),同時保持大約 122.88 毫秒的推理時間。盡管該系統沒有像多 IMU 方法那樣進行顯式的關節角度估計,但它能夠從最少的傳感器輸入中可靠地識別出危險姿勢,這為建筑工地的實時風險監測提供了新的可能性。
引言
建筑工作本質上伴隨著劇烈的體力消耗和高強度的機械勞動[1]。這種高強度的體力勞動常常導致嚴重的健康問題,尤其是在人體工程學方面,例如工作相關肌肉骨骼疾病(WMSD)[2]、[3]。先前的研究表明,建筑行業中大量未受管理的工人行為是增加這種疾病可能性的主要原因[4]、[5]、[6]、[7]。這些不安全的人體工程學行為往往被忽視或管理不善,不僅會導致長期的健康問題,還會立即引發安全風險,例如從高處墜落或滑倒,這些風險直接增加了嚴重二次事故的發生概率[8]、[9]。美國聯邦統計系統的主要機構——勞工統計局(BLS)[10]將 WMSD 定義為由于工作活動中不安全或姿勢不自然而引起的傷害。2023 年,建筑研究與培訓中心(CPWR)[11] 的研究表明,建筑行業中超過 20% 的非致命傷害歸因于 WMSD,主要是由于過度勞累和重復性動作,而這些在建筑工作中非常普遍[11]。
建筑行業中的這些人體工程學隱患不僅導致工人傷亡,還會干擾施工進程并增加項目成本[12]。這些疾病的影響體現在多個方面,包括工人缺勤、施工進度延誤以及工人賠償索賠增加[13]、[14]。這突顯了管理人體工程學問題以提高工人安全和施工項目效率的重要性。
深度學習、物聯網傳感器和數據處理的最新進展使得不安全行為的自動分類成為可能[15]、[16]。這些技術主要圍繞計算機視覺驅動的圖像處理或可穿戴傳感器時間序列數據分析開發,顯示出替代基于人類觀察的方法的潛力。
基于計算機視覺的研究旨在根據全身或身體部位的配置來評估不安全行為[18]、[19]、[20]、[21]。這使得無需給工人佩戴傳感器等物理負擔,就能通過姿勢估計和物體檢測直觀且視覺化地分析不安全行為的原因。然而,建筑工作大多在戶外進行,對光照條件非常敏感,而且建筑現場的復雜性可能導致視覺遮擋,干擾姿態估計的結果[22]、[23]。建筑現場的嘈雜環境通常會降低基于計算機視覺的系統的可靠性[24]。圖 1 展示了使用計算機視覺識別不安全工人行為的挑戰。圖 1(a) 中,工人正在執行跪姿動作,但由于腳架和金屬結構的遮擋,小腿部分無法被看到,導致姿態估計結果難以判斷,這種情況在建筑現場很常見。圖 1(b) 顯示了由于攝像機角度問題導致的估計結果失真。此外,一些研究表明,距離超過 4 米的攝像機拍攝的姿態估計可靠性不穩定[25],這可能需要大量投資用于安全管理,因為需要安裝多個攝像機。基于視覺的技術需要從不同角度安裝多個攝像機來有效管理盲點;然而,在不斷變化的建筑現場頻繁設置、拆卸和重新定位大量攝像機,使得計算機視覺在建筑工地監測中的實際應用變得困難。在這種情況下,僅依賴視覺方法的廣泛監控系統的發展仍然具有挑戰性。
與基于視覺的方法相比,慣性測量單元(IMU)等運動傳感器具有連續監測的優勢,且相對于視覺傳感器來說成本較低。IMU 是一種緊湊的傳感器,通常結合了加速度計、陀螺儀和磁力計來測量物體的運動。加速度計可以檢測三維空間中的加速度,提供關于線性運動的洞察。在行為分類研究中,IMU 傳感器的緊湊尺寸和相對較低的成本使其在研究和商業應用中越來越受歡迎,從而實現了詳細的運動分析[20]、[26]。然而,許多現有的基于運動傳感器的研究需要為每位工人使用多個可穿戴傳感器。如果增加傳感器的數量,可以提高行為推理的準確性;然而,這在成本和維護方面可能成為負擔,同時工人也需要佩戴和管理多個傳感器,可能會影響他們的行動自由。從這個角度來看,本研究提出了一種框架,通過使用受建筑現場環境影響較小的傳感器數據來強化時間序列模式提取,從而用最少的傳感器對類似行為(姿勢)進行分類。本研究的主要貢獻如下:
- •
提出了基于 IMU 運動傳感器的框架,以增強對建筑工人行為的監測。該框架旨在識別與 WMSD 相關的高風險姿勢。
- •
所提出的方法將傳感器數據編碼為圖像,然后將其堆疊起來作為基于深度學習的分類模型的輸入。這種方法增強了高維時間序列數據中復雜模式和關系的提取,提供了一種分析傳感數據的方法。
- •
與其他 18 種分類方法相比,我們的模型在所有類別上的表現都更好或具有相似的準確性,即使在姿勢相似的情況下也是如此。
本文的其余部分安排如下:第 2 節回顧了關于建筑工人不安全行為的研究文獻,為不安全行為識別的分類提供了基礎。此外,我們總結了與基于傳感器的工作行為分類研究相關的先前研究,并解釋了它們與本研究的關系。第 3 節描述了實驗中使用的數據集、識別工人行為的過程、提出的框架以及我們的研究方法。第 4 節詳細介紹了基于該方法的研究結果,這些結果驗證了我們方法的可行性。第 5 節討論了研究見解、局限性以及未來研究的方向,以改進我們的方法。最后,第 6 節提出了結論。
部分摘錄
評估建筑中不安全行為的姿勢人體工程學
利用接觸傳感器獲得的姿勢相關數據,可以將建筑工人的不安全行為分為兩個主要領域:危險識別,包括安全法規違規的檢測和跌落風險評估;以及工人健康管理,重點是人體工程學風險評估[20]。本研究特別關注與工人健康管理相關的不安全行為,特別是那些由不正確姿勢引起的行為。
結果
行為分類模型的實驗配置使用了兩塊 NVIDIA RTX A6000 顯卡(每塊顯卡配備 48 GB 顯存)。我們還使用了 16 個英特爾至強 Silver 4215R CPU(主頻 3.20 GHz)、Ubuntu 20.04 操作系統和 Python 3.9.13 版本。該模型在 12 × 320 × 320 多通道圖像編碼的時間序列數據上訓練了 150 個周期。
討論
在本節中,我們將基于基準數據集訓練的模型應用于室內實驗,以評估所提出框架的潛在影響和好處,以及其局限性和未來研究的方向。除了測試數據集外,我們還進行了室內實驗,以討論所提出模型的優勢和局限性以及未來研究的方向。盡管基準數據集包含清晰分割的單個行為樣本,但它仍然
結論
在這項研究中,我們提出了一個使用單個腰戴式 IMU 對建筑工人行為進行分類的框架,結合了先進的圖像編碼技術 GAF 和 MTF 以及深度學習模型(如卷積神經網絡和 Vision Mamba)。GAF 捕捉時間序列數據中的全局幅度關系,而 MTF 強調局部過渡動態;將兩者結合使用提供了互補的空間和時間表示,增強了模型的能力
CRediT 作者貢獻聲明
樸民洙:撰寫 – 審稿與編輯、初稿撰寫、可視化、驗證、軟件開發、項目管理、資金獲取、概念構思。高東英:初稿撰寫、方法論。全允泰:軟件開發、形式分析。吳泰坤:方法論、概念構思。樸成希:監督、項目管理。
利益沖突聲明
作者聲明以下可能被視為潛在利益沖突的財務利益/個人關系:樸民洙報告稱獲得了江原 Wonju 國立大學的財務支持。
致謝
本研究得到了韓國政府(MSIT)資助的韓國國家研究基金會(NRF)(RS-2024-00351179、RS-2025-02223612)的資助。本文還得到了 2025 年江原 Wonju 國立大學新任命教授的研究資金支持。