《Frontiers in Sports and Active Living》:Exploring the potential of augmented reality in rehabilitation: a novel approach for post-stroke unilateral neglect
編輯推薦:
本文介紹了一種名為NeuroNavAR的創新增強現實(AR)康復系統,旨在解決腦卒中后單側空間忽視(USN)這一臨床難題。該系統利用YOLO-V8和ONE-PEACE模型實時檢測并分割現實環境中的物體(如桌椅),生成沿物體輪廓移動的虛擬蜜蜂引導患者進行視覺掃描訓練(VST)。技術驗證顯示,其在ADE20K室內圖像數據集上達到了76.70%的mIoU和88.51%的準確率。該系統旨在通過游戲化、生態化的主動探索訓練,促進神經可塑性,為傳統康復方法提供了更具吸引力、情境相關性更強的替代方案,其臨床療效計劃于2026年進行驗證。
引言:腦卒中后單側空間忽視的挑戰與機遇
腦卒中康復患者常遭受視空間忽視(VSN)的困擾,這是一種影響視覺信息處理和空間感知的障礙,其主要癥狀之一便是單側忽視,或稱單側空間忽視(USN)。這種注意障礙源于中風對大腦側裂網絡(涉及顳葉、頂葉和腹外側前額葉皮層)的損害,導致大腦無法正常處理一側(通常是左側)的空間信息。如圖1所示,USN患者往往對患側刺激無反應,導致日常生活活動嚴重受阻,如行走、穿衣或進食時只感知物體的一側,從而增加殘疾或跌倒風險。因此,深入研究USN對改善腦卒中后康復策略至關重要。
USN的復雜性使其診斷和治療均面臨挑戰。當前國際臨床指南將視覺掃描訓練(VST)確定為腦卒中后忽視的一線非藥物干預措施,其有效性依賴于患者向忽視側進行主動的、目標導向的探索性動作——即眼、頭和軀干的協調轉動。這種多模式運動參與對于刺激受損的背側(自上而下)和腹側(自下而上)注意網絡至關重要,從而促進皮層重組和功能神經可塑性,這是長期功能恢復的生物學基礎。
然而,傳統的VST(如紙筆任務、電腦屏幕或治療師指導的練習)存在生態效度有限、患者參與度低以及在真實環境中對全身探索性動作強調不足等問題。新興技術提供了有前景的替代方案:棱鏡適應(PA)可誘導感覺運動重新校準,但缺乏任務外的普適性;沉浸式虛擬現實(VR)能增強參與度,但可能引起暈動癥并將用戶與物理環境隔離。
為了彌補這一缺口,本研究提出了NeuroNavAR,這是一個增強現實(AR)智能康復平臺,旨在具體實施指南所倡導的探索性動作訓練原則。該系統利用移動設備攝像頭,通過實時物體檢測和分割來識別日常室內物體(如鐘表、椅子和桌子)。患者與一個游戲化界面互動,該界面以一只虛擬“蜜蜂”為特色,這只蜜蜂沿著檢測到物體的輪廓移動;其在忽視側的運動被特意放慢,以鼓勵患者持續關注對側。成功完成一個輪廓路徑會獲得即時獎勵,而跟蹤失敗則會觸發引導“小鳥”出現,溫和地將患者注意力重新引向蜜蜂軌跡——這體現了無錯學習和內在動機的原則。最關鍵的是,AR疊加層在空間上錨定于真實物體,從而要求患者動態轉動眼、頭和軀干,在自然環境中跟隨虛擬智能體。這種具身互動旨在同時調動背側注意網絡(通過自愿的、目標驅動的搜索計劃)和腹側注意網絡(通過顯著的移動視覺刺激),直接針對USN的核心病理生理機制。
此外,NeuroNavAR不僅僅被構想為一個治療工具,還是一個多模式研究平臺。根據更廣泛的項目框架,它將與同步腦電圖(EEG)和磁共振成像(MRI)數據收集集成,以研究訓練誘導的神經可塑性,并開發個體治療反應的預測模型——為真正個性化、人工智能驅動的神經康復鋪平道路。本文報告了核心AR流程(包括物體識別、輪廓生成和實時AR渲染)的技術可行性和驗證,為計劃在新西蘭和中國(武漢)對腦卒中幸存者進行的即將開展的臨床試驗(第二年)奠定了必要的基礎。
方法學:系統架構與實現
增強現實(AR)為提高腦卒中后康復訓練的動力提供了一種有前景的方法。AR涉及將計算機生成的虛擬元素集成到現實世界中的過程。本研究探索了AR如何作為視覺掃描療法服務于視空間忽視(VSN)患者,從而增強其康復過程中的參與度和獨立性。
如圖2所示,系統架構始于輸入圖像,由YOLO-V8檢測網絡處理,以識別諸如桌、椅等物體。這些物體隨后被輸入到ONE-PEACE分割網絡中,生成掩碼以獲取物體的邊緣信息。最后,使用FFmpeg工具沿物體邊緣疊加虛擬蜜蜂貼紙。這些虛擬蜜蜂環繞物體邊界移動,在患者的忽視側旋轉更慢、循環次數更多,以增強對該區域的注意力。完成一個完整循環后,程序會獎勵患者。如果患者未能定位到虛擬蜜蜂,則會出現一只虛擬鳥引導患者回到蜜蜂的位置。
本研究所有實驗均在一臺配備NVIDIA V100 GPU(32GB內存)的服務器上進行。軟件環境包括Ubuntu 18.04、CUDA 12.1、PyTorch 2.1.1和FFmpeg 4.4.4。在V100 GPU上進行端到端推理計時:YOLOv8檢測每張圖像約10毫秒,ONE-PEACE分割需要260毫秒,通過FFmpeg的輪廓渲染增加50毫秒。因此,完整流程的吞吐量約為每秒3幀(FPS),每幀平均延遲為320毫秒。
模型網絡架構
YOLO-V8網絡由三個主要組件構成:骨干網絡(Backbone)、頭部(Head)和檢測(Detect)模塊。骨干網絡是用于逐步提取圖像特征的核心網絡。頭部旨在整合網絡各階段的特征。檢測模塊生成檢測框并對框內物體進行分類。網絡還包含CBS、瓶頸結構(Bottleneck)、C2f_X和SPPF等模塊以增強性能。
ONE-PEACE網絡包含三個主要組件:視覺適配器(Vision Adaptor)、語言適配器(Language Adaptor)和掩碼解碼器(Mask Decoder)。視覺適配器將圖像等視覺輸入編碼為圖像嵌入。語言適配器將檢測框和類別標簽的文本信息編碼為提示嵌入。掩碼解碼器通過特征融合集成圖像和提示嵌入,最終輸出掩碼。
為驗證兩階段流程的設計選擇,本研究與先進的通用分割架構Mask2Former進行了對比。具體使用了在ADE20K數據集上預訓練的Swin-Large變體。
處理步驟
實驗過程的偽代碼如算法1所示。算法包含兩個循環。外層循環遍歷測試數據集中的圖像,內層循環處理每張圖像中由YOLO-v8模型檢測到的每個邊界框(bbox)。內層循環步驟如下:首先,使用ONE-PEACE模型對邊界框內的物體進行分割,得到物體的邊緣輪廓。隨后,應用距離過濾器排除距離患者過遠的物體(實踐中通過僅選擇邊界框面積超過圖像總面積0.2%且保留面積最大的前5個物體來實現)。只有處于治療距離范圍內的物體會被保留以供進一步處理。最后,將分割得到的掩碼轉換為輪廓表示。內層循環完成后,使用FFmpeg工具將這些輪廓連同類別信息和虛擬蜜蜂動畫疊加到圖像上,最終將結果保存為GIF文件。
實驗:數據集與評估
為驗證所提方法的可行性,本研究選擇了ADE20K數據集驗證集中的室內場景作為測試集。ADE20K提供了場景、物體和物體部件的廣泛標注。測試數據集共選擇了537張圖像,特別聚焦于包含50個室內物體類別的場景。
在分割任務中,準確率(Accuracy)和交并比(IoU)是常用的評估指標。準確率表示正確分類像素占總像素的比例。IoU是專門為分割任務設計的指標,衡量預測區域與真實區域的重疊程度。其值在0到1之間,1表示完全重疊。在類別不平衡的場景下,IoU更適合評估分割性能。
結果:性能比較與可視化
如圖3所示,展示了所提流程(YOLOv8 + ONE-PEACE)與Mask2Former基線在各類別上的分割性能對比。
所提流程的平均交并比(IoU)和準確率(Acc)分別為76.70%和88.51%。相比之下,Mask2Former在同一測試集上實現了65.88%的IoU和80.02%的準確率。所提方法的IoU值范圍在55%到95%之間,而Mask2Former的范圍在49.21%到89.01%之間。值得注意的是,所提方法在大多數類別上持續優于Mask2Former,尤其是在大型、結構顯著的物體上,如床(94.43% vs. 69.12%)、燈(95.91% vs. 77.88%)和壁爐(91.80% vs. 84.20%)。這證明了兩階段方法在準確分割用于AR治療的臨床相關室內物體方面的優勢。
對50個室內物體類別的描述性統計顯示,平均IoU為76.70%(標準差=11.2%),平均準確率為88.51%(標準差=6.8%)。標準差反映了顯著的類別間變異性,突顯了將分割推廣到小型、遮擋或低紋理物體所面臨的挑戰。
如圖4所示,呈現了物體檢測和分割結果的組合可視化。在這些圖像中,檢測到的物體用邊界框高亮顯示,而其精確邊界用輪廓線描繪。檢測到的類別名稱顯示在每個物體旁邊的文本中。此可視化展示了系統在識別和精確分割各種室內物體(如椅子、桌子和床)方面的準確性。
基于此檢測和分割基礎,圖5展示了最終的增強現實輸出,其中虛擬蜜蜂沿分割物體的輪廓移動。蜜蜂在患者的忽視側(通常是右腦卒中幸存者的左側)移動得更慢,以鼓勵對該區域的注意。當患者成功跟隨完整路徑時,他們會獲得視覺獎勵。如果患者未能完成循環,虛擬鳥會出現以引導他們的注意力回到蜜蜂軌跡。
這種兩階段可視化——首先展示精確的物體檢測和分割,然后展示治療應用——說明了系統如何將原始圖像數據轉化為一個引人入勝的康復工具。精確檢測和分割可見室內物體提供了全面的輪廓信息,結合動畫蜜蜂和實時反饋機制,為應對腦卒中后單側忽視提供了一種有效的方法。
討論:優勢、局限與未來方向
實驗結果表明,基于深度學習的物體分割算法在室內圖像分割任務中達到了較高的準確率,這為開發一種新穎的增強現實(AR)方法來解決腦卒中后單側空間忽視(USN)奠定了堅實的技術基礎。
本研究的核心創新在于將智能圖像處理與基于AR的游戲化設計相結合,為USN患者創建康復應用。與現有干預措施(如棱鏡適應、非生態性視覺掃描任務或沉浸式VR)相比,AR方法提供了更高的生態效度、可及性和參與度。通過與先進的端到端分割模型Mask2Former的比較,驗證了兩階段流程的設計選擇:將檢測和分割解耦,使系統能夠將計算資源集中在AR治療最有用的顯著、大型物體上。
盡管有這些優勢,但局限性仍然存在。首先,實驗是在GPU服務器上對靜態圖像進行的;尚未在Android或iOS設備上驗證實時、在設備上的性能。當前工作是一項技術可行性研究。其次,也是關鍵的一點,目前尚未進行人體受試者測試。因此,缺乏關于可用性指標(如AR序列完成時間、任務成功率或用戶滿意度)的經驗數據。
為了解決這一缺口,研究團隊計劃在第二年于新西蘭和中國(武漢)的研究點開展一項涉及25名慢性USN腦卒中幸存者的試點臨床試驗。試驗將采用混合方法評估框架,包括:1) 可用性與性能:每個AR序列的平均時間、引導虛擬蜜蜂沿物體輪廓移動的成功率、來自患者和治療師的系統可用性量表(SUS)評分,以及關于舒適度和參與度的定性反饋;2) 臨床療效:使用行為忽視測試(BIT)和星取消測試等工具進行干預前后評估,以量化空間注意力和功能獨立性的變化。此外,基于項目對多模態數據的整合,研究計劃探索腦電圖(EEG)和磁共振成像(MRI)生物標志物,以研究訓練誘導的神經可塑性,并開發個性化干預的預測模型。
結論
本研究介紹了一種創新的增強現實(AR)智能訓練程序NeuroNavAR,旨在幫助腦卒中后單側空間忽視患者的康復。該程序利用圖像處理算法識別和分割現實世界中的物體,引導患者跟隨虛擬蜜蜂軌跡,并通過實時反饋增強參與度。實驗結果表明,該方法在537張室內圖像測試數據集上實現了76.70%的交并比(IoU)和88.51%的準確率,證明了其在準確識別和分割復雜室內物體方面的有效性。與傳統康復方法相比,這種方法提供了更直觀、更具吸引力且與情境更相關的訓練體驗,在臨床驗證的前提下,具有改善康復結果的潛力。
重要的是,此項工作奠定的基礎為即將進行的臨床驗證鋪平了道路。計劃的試點試驗將評估該系統在真實世界康復環境中的可用性、安全性和治療效果。通過將臨床結果測量與實時互動數據相結合,旨在將NeuroNavAR建立為一個可擴展的、基于證據的數字治療工具。這項研究代表了朝著實現可及、個性化、技術驅動的腦卒中后認知障礙神經康復邁出的充滿希望的一步。