《Internet of Things》:Parameterized Synthetic WiFi CSI Data Generation for Trustworthy Human Activity Recognition: A Sim2Real Approach with Edge Deployment Analysis
編輯推薦:
本提出參數化合成WiFi信道狀態信息(CSI)數據生成框架,結合Sim2Real遷移學習與邊緣優化,解決數據稀缺、跨域泛化差及計算受限問題。實驗表明模型僅需20%真實標注數據即達82.1%宏F1分數,在Xavier AGX 32G平臺實現607樣本/秒吞吐量,模型大小<2.5MB。
趙志豪|陳雅冰|郭帕特里克|努爾·賽阿茲琳·艾哈邁德
馬來西亞科學大學電氣與電子工程學院,14300 Nibong Tebal,檳城,馬來西亞
摘要
基于無線保真(WiFi)信道狀態信息(CSI)的人類活動識別(HAR)技術展示了良好的成果,但實際應用面臨關鍵挑戰,包括數據稀缺、跨域泛化能力差以及邊緣部署的計算限制。雖然現有的基準測試(如SenseFi)系統地在真實數據集上評估模型,但它們假設存在大量標注數據,并忽略了實際部署的考慮因素。我們提出了一個參數化的合成CSI數據生成框架,通過模擬到現實(Sim2Real)遷移學習和邊緣部署優化來解決這些挑戰。我們的方法生成了具有真實頻率特性、時間動態和噪聲模式的可控合成CSI樣信號,從而實現了向真實場景的有效領域遷移。我們引入了一種增強型深度學習架構,該架構結合了擠壓激勵(SE)模塊和時間注意力機制,并配備了可靠的評估協議和邊緣部署分析。在合成魯棒性驗證(SRV:540種配置)、跨域適應評估(CDAE:40種配置)和Sim2Real遷移效率評估(STEA:56種配置)中的實驗表明了強大的性能。我們的方法僅使用20%的標注真實數據就實現了82.1%的宏觀F1分數,與全監督相比僅相差1.2%,同時將標注成本降低了80%。增強型模型在留一受試者外(LOSO)和留一間室外(LORO)協議下均表現出83.0±0.1%的F1分數,顯示出跨域一致性。在Xavier AGX 32G平臺上的邊緣部署分析顯示了其實際可行性,具備實時推理能力:增強型模型在批量大小為8時可實現每秒607個樣本的吞吐量,單樣本延遲為5.3毫秒,同時模型大小保持在2.5MB以下。本研究提出了一個包含WiFi CSI HAR邊緣部署分析的系統性Sim2Real研究。
引言
移動計算和物聯網(IoT)的部署趨勢引發了關于無設備感知系統實際可行性的重大關切。這些關切主要集中在它們對標注數據集的依賴性、跨域性能下降的脆弱性以及邊緣部署場景的計算需求上。基于無線信號的人類活動識別(HAR)由于多徑傳播、環境敏感性和人類運動動態與電磁波擾動之間的復雜關系而具有固有的復雜性。這種復雜性在保護隱私的感知能力和在多樣且不受控制的環境中進行部署的嚴峻現實之間造成了矛盾,因為在這些環境中獲取標注訓練數據的成本非常高昂,計算資源也嚴重受限。
本研究的核心問題是探討合成數據生成是否能夠彌合實驗室控制的WiFi信道狀態信息(CSI)HAR系統與實際邊緣計算場景之間的差距,后者以數據稀缺、領域異質性和資源限制為特征。
現有的基準測試工作對該領域做出了實質性貢獻。SenseFi [1] 通過比較11種深度學習模型在4個公共數據集上的表現,建立了標準化的評估協議,并揭示了不同架構和數據集之間的性能差異。然而,這些基準測試假設存在大量可用的標注真實世界訓練數據,并且計算資源是無限的,這導致了研究成果與實際部署場景之間的差距。盡管之前的研究探索了包括遷移學習方法、領域適應技術和數據增強策略在內的方法,但這些方法仍然依賴于足夠的目標領域標注數據的可用性,而且通常需要計算密集型模型,不適合邊緣部署。
我們的工作通過幾項新穎的貢獻解決了這些限制,推進了基于WiFi CSI的HAR的理論理解和實際應用性。我們引入了一個系統化的參數化合成數據生成框架,該框架生成了具有真實頻譜特性的可控CSI樣信號,從而能夠創建有助于有效領域遷移的合成訓練數據。我們在WiFi CSI HAR中進行了系統的模擬到現實(Sim2Real)遷移學習研究,結果表明,在合成數據上預訓練的模型僅需要20%的真實數據即可進行微調,以實現82.1%的宏觀F1分數,相當于全數據集性能的98.6%,同時將數據收集成本降低了80%。我們提出了一個增強型注意力網絡(EAN),其中包含了擠壓激勵(SE)模塊和時間注意力機制,在留一受試者外(LOSO)和留一間室外(LORO)協議下均實現了83.0±0.1%的F1分數,顯示出前所未有的跨域一致性。此外,我們在Xavier AGX 32G平臺上提供了首次邊緣部署分析,證明了其實際可行性,該平臺具備實時推理能力:增強型模型在批量大小為8時可實現每秒607個樣本的吞吐量,單樣本延遲為5.3毫秒,同時模型大小保持在2.5MB以下。
主要貢獻:- 1.
參數化合成數據生成器:
我們開發了一種新穎的參數化合成數據生成框架,可以生成具有可配置頻率特性、時間動態和噪聲模式的可控CSI樣信號,以生成真實的合成訓練數據。 - 2.
Sim2Real遷移學習:
我們在WiFi CSI HAR中進行了系統的Sim2Real研究,與之前的基于物理的特征提取方法 [2]、[3] 不同,我們證明了從參數化合成數據集到真實領域的有效遷移。 - 3.
樣本高效學習:
我們證明,在合成數據上預訓練的模型僅需要20%的真實數據即可進行微調,以實現82.1%的宏觀F1分數,相當于全數據集性能的98.6%,同時將數據收集成本降低了80%。 - 4.
增強型注意力網絡:
我們提出了一個包含SE模塊和時間注意力機制的EAN,在合成數據和真實數據上都實現了卓越的性能,并具有出色的跨域一致性。 - 5.
邊緣部署分析:
我們為WiFi CSI HAR提供了全面的邊緣部署特性分析,在Xavier AGX 32G平臺上進行了詳細的性能分析,包括吞吐量、延遲和內存優化分析。 - 6.
可靠的評估協議:
我們引入了包括模型校準分析、預測置信度評估和適合安全關鍵邊緣應用的跨域魯棒性測試在內的可靠性評估。
實驗驗證:我們通過三種結合邊緣部署分析的系統評估協議驗證了我們的方法:(1) 合成魯棒性驗證(SRV): 在噪聲、類別重疊和難度條件下的540種配置,(2) 跨域適應評估(CDAE): 驗證LOSO/LORO泛化能力的40種配置,(3) Sim2Real遷移效率評估(STEA): 量化Sim2Real標簽效率的56種配置,以及(4) 邊緣部署特性分析: 在Xavier AGX 32G平臺上的性能分析。結果展示了突破性的性能,包括83.0±0.1%的F1跨域一致性,僅使用20%的標注真實數據即可實現82.1%的F1分數,以及在邊緣硬件上實現每秒607個樣本的實時推理能力。
本文的其余部分詳細介紹了我們的方法和發現。第二節回顧了WiFi CSI HAR、合成數據生成方法、Sim2Real遷移學習和邊緣計算考慮的相關工作。第三節介紹了我們的合成數據生成框架及其詳細的信號模型和參數化策略。第四節描述了我們的增強型注意力網絡架構和為邊緣部署優化的可靠評估協議。第五節展示了所有評估協議的實驗結果,包括詳細的邊緣部署分析。第六節討論了發現、影響和局限性,第七節總結了貢獻和對普遍感知應用的廣泛影響。圖1提供了整個系統流程的概述。
部分摘錄
WiFi CSI HAR和深度學習架構
隨著深度學習架構和系統評估框架的進步,基于WiFi CSI的HAR取得了顯著發展。早期工作側重于特征工程方法 [4],從CSI幅度和相位信息中提取手工制作的特征。此后,該領域轉向了端到端的深度學習方法,采用了越來越復雜的架構。卷積神經網絡(CNN)是最早應用于WiFi CSI HAR的深度學習方法之一,
參數化合成CSI數據生成框架
本節介紹了我們的參數化合成CSI數據生成框架,該框架生成了能夠模仿WiFi CSI數據基本特性的可控合成信號,用于HAR應用。該框架使用可配置的信號參數和真實的噪聲建模來生成合成訓練數據,從而實現有效的領域遷移,并為全面的評估協議提供對數據特性的系統控制。增強型深度學習架構
基于我們的合成數據生成框架,我們提出了一個EAN,其中結合了先進的注意力機制和特征細化技術,旨在提高準確性和計算效率。我們的設計理念在模型表達能力和邊緣部署限制之間取得了平衡,確保了在資源受限的IoT場景中實現卓越的性能。如圖2所示,該模型結合了CNN特征帶有邊緣部署分析的實驗評估
圖3總結了我們的四個評估組件(SRV、CDAE、STEA和邊緣部署分析),為后續的實驗設置和結果提供了框架。討論
本研究通過參數化合成數據生成和Sim2Real遷移學習解決了WiFi CSI基礎HAR中的數據稀缺問題,同時通過詳細的邊緣計算分析解決了實際部署問題。我們的研究問題集中在合成數據生成是否能夠彌合實驗室控制系統與實際部署場景之間的差距,后者以數據稀缺、領域異質性和資源限制為特征。結論
本文首次系統地研究了用于WiFi CSI HAR的參數化合成數據生成及其邊緣部署分析,解決了數據稀缺、跨域泛化和實際部署限制等挑戰。我們的評估表明,參數化合成數據能夠實現有效的Sim2Real遷移到真實場景,僅使用20%的標注真實數據即可實現82.1%的宏觀F1分數,并在LOSO/LORO協議下實現了83.0±0.1%的跨域一致性CRediT作者貢獻聲明
趙志豪:撰寫——原始草案、方法論、調查、形式分析、數據整理。陳雅冰:可視化、資源。郭帕特里克:可視化、驗證。努爾·賽阿茲琳·艾哈邁德:撰寫——審稿與編輯、驗證、監督、概念化。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。