《Frontiers in Neuroscience》:Toward automated neonatal EEG analysis: multi-center validation of a reliable deep learning pipeline
編輯推薦:
本研究重點介紹了名為“NeoNaid”的自動化新生兒腦電圖(EEG)分析軟件工具,其整合了功能性大腦年齡(FBA)估計與睡眠分期兩大核心任務,并創新性地集成了質量控制系統。文章通過對比內部(魯汶)與外部(牛津)兩所獨立醫院的臨床數據集,驗證了該算法在應對記錄系統、電極配置差異時的良好泛化能力,以及質量控制在減少極端誤差、提升結果可靠性方面的重要作用。這項工作強調了可信度與泛化能力對于推動自動化新生兒腦電分析臨床應用的關鍵意義。
引言
新生兒腦電圖(EEG)是評估新生兒腦功能的金標準,在新生兒重癥監護室(NICU)中是一種寶貴的監測工具。它憑借高時間分辨率和多通道記錄,提供了關于大腦成熟、睡眠階段以及癲癇發作等病理活動的豐富信息。然而,新生兒EEG信號復雜,解讀極具挑戰,且記錄通常長達數小時,導致視覺分析既需要專業知識又非常耗時。這些因素限制了EEG在臨床中的常規使用。
近十年來,一系列數據驅動和人工智能(AI)方法被開發出來以協助新生兒EEG解讀,包括癲癇自動檢測、背景分級、睡眠分期和功能性大腦年齡(FBA)估計等。此外,一項名為Babacloud的云服務也已部署,實現了從上傳的EEG記錄中自動計算新生兒EEG摘要指標(包括大腦狀態測量和偽跡檢測)的分析流程。為了提高EEG深度學習的魯棒性和泛化能力,近期研究還展示了自監督和多任務訓練策略的強大潛力。此類策略允許模型使用來自不同隊列的多個數據集進行訓練,這些數據集可能是無標簽的,或針對不同任務進行標注。通過不將訓練限制在單一特定任務的數據上,這種方法能夠整合異構數據集并從更大、更多樣化的數據收集中學習,從而改善泛化能力。
在新生兒EEG的多種AI應用中,睡眠分期和FBA估計對于評估神經發育尤為重要,也是本研究的重點。睡眠組織是神經發育的重要標志,自動睡眠分期可以提供連續、客觀的測量,而這對于臨床醫生而言通常是難以手動完成的。類似地,FBA估計通過比較EEG衍生的年齡估計值與嬰兒的孕后年齡(PMA),提供了大腦成熟的定量測量。FBA與PMA之間的偏差可能提示非典型發育并具有預后價值。兩者結合,可以支持臨床決策和新生兒神經發育的長期研究。
盡管潛力巨大,但臨床采用仍存在顯著障礙。大多數已發布的模型僅在內部測試數據上進行驗證,引發了人們對它們在不同醫院、記錄系統或電極配置數據上魯棒性的擔憂。此外,長時間NICU記錄不可避免地包含由運動、電極接觸不良或生理干擾引起的偽跡。主要在干凈數據上訓練的模型可能在這些片段上失敗。對于臨床應用而言,自動化EEG工具不僅需要準確,還必須在實踐中可用且在多樣化數據集上可靠。最后,為了被臨床實踐采納,工具必須易于使用并提供輔助解讀的軟件。
為滿足這一需求,研究團隊開發了NeoNaid,這是一個將用于新生兒EEG分析的多任務深度學習模型集成到用戶友好圖形界面中的軟件工具。該工具自動處理長時程EEG記錄,并提供穩健的、具有臨床相關性的EEG解讀,包括睡眠分期和FBA估計。其底層AI模型基于團隊先前發表的工作構建,并在一個大型內部新生兒EEG數據集上訓練。更重要的是,NeoNaid實施了旨在提高工具在臨床實踐中使用時的可靠性和可信度的質量控制流程。這些流程通過檢測偽跡、分布外輸入或高模型不確定性,來標記可能產生不可靠預測的EEG片段。
本研究重點驗證NeoNaid作為新生兒EEG分析工具的性能,強調質量控制和外部驗證。研究在兩個獨立數據集上評估NeoNaid:一個來自魯汶的內部隊列和一個來自牛津的外部隊列。這種跨中心驗證對于評估泛化能力和建立真實世界臨床應用中的信任至關重要。
材料與方法
- 1.
使用NeoNaid進行自動化EEG分析
NeoNaid是一個內部開發的自動化新生兒EEG分析軟件工具。它將預處理、基于深度學習的預測和質量控制流程集成在一個為臨床使用設計的圖形用戶界面中。NeoNaid的一個關鍵特性是處理可變輸入配置的能力。底層模型采用通道無關架構,各通道獨立處理后,通過基于注意力的機制聚合各通道的預測。
NeoNaid的輸入是原始多通道EEG記錄。預測以30秒非重疊片段為單位生成。對于輸入EEG中的每個通道,NeoNaid產生四個主要輸出:指示輸入中哪些樣本可能是噪聲的偽跡掩碼;睡眠階段預測:安靜睡眠(QS)、活動睡眠(AS)或清醒;功能性大腦年齡(FBA)估計;以及用于下游聚合的注意力權重。計算完這些逐通道輸出后,注意力權重用于通過加權平均的方式,將逐通道的睡眠和FBA預測聚合成單一的全局輸出。該機制允許NeoNaid優先考慮信息豐富的信號并減輕噪聲信號的影響。
軟件核心是一個多任務深度學習模型,通過整合團隊先前發布的模型開發而成。其架構基于先前發布的卷積神經網絡,包含一個共享編碼器,連接到多個輸出頭,每個任務一個。與先前的單任務模型不同,NeoNaid在多任務設置下訓練,能夠同時從針對不同任務標注的不同新生兒EEG數據集中進行有監督學習。訓練數據包括來自124個記錄(具有FBA估計的年齡標簽)約1326小時EEG,來自132個記錄(具有睡眠標注)565小時EEG,以及來自73個記錄(具有偽跡標注)44小時EEG。
- 2.
數據集
研究使用兩個獨立的新生兒EEG數據集評估NeoNaid:一個在比利時魯汶大學醫院收集的內部數據集(數據集A)和一個在英國牛津約翰·拉德克利夫醫院記錄的外部數據集(數據集B)。這些數據集在采集硬件、電極配置和本地記錄協議上存在差異,使得研究者能夠評估算法在不同記錄條件下的泛化能力。內部數據集A與用于開發NeoNaid算法的數據來自同一家醫院,但數據集A中的所有記錄均獨立于開發數據,因此代表未見過的案例。
數據集A包含來自在比利時魯汶大學醫院NICU監測的17名新生兒的33個EEG記錄。隊列包括足月和早產兒,記錄時的孕后年齡(PMA)范圍從27.3周到47周。EEG使用BrainRT EEG系統采集,采樣率為250或256 Hz。電極按照改良的10-20系統放置,包括以下通道:Fp1、Fp2、C3、C4、T3、T4、O1和O2,以Cz作為參考電極。
數據集B包含來自在牛津大學醫院NHS信托基金會新生兒護理單元記錄的24名新生兒的38個EEG記錄。記錄時的PMA范圍從29.4周到41.4周。與數據集A相比,數據集B使用不同的EEG系統和配置。EEG使用SynAmps RT 64通道頭盒和放大器以及CURRYscan7神經成像套件記錄,采樣率為2000 Hz。電極配置包括FCz、C3、C4、Cz、CPz、T3、T4和Oz,以Fz作為參考。
為確保數據集間的一致性并減少不同參考電極的影響,EEG記錄通過使用兩個數據集中均存在的電極對轉換為一個共同的雙極配置。在此之后,信號進行帶通濾波并下采樣至64 Hz。然后將記錄分割為30秒非重疊時段。在每個記錄內,通過所有片段的標準偏差中位數對通道振幅進行歸一化。這些預處理步驟確保了采集系統間的一致性,并由NeoNaid軟件自動執行。
- 3.
質量控制
NeoNaid的一個核心特性是其質量控制算法,該算法在下游解讀前評估每個30秒EEG片段的可靠性。此過程涉及評估三個獨立的可靠性標準:偽跡含量、新穎性檢測(用于檢測分布外輸入)以及(不)確定度水平。
偽跡:每個片段基于模型專用檢測頭識別為噪聲的樣本百分比分配一個偽跡分數。偽跡含量超過50%的片段被標記為不可靠,從而防止模型在腦活動基本被掩蓋的片段上產生預測。
新穎性:分布外輸入通過將新穎性檢測模型應用于片段中的每個通道來自動識別。NeoNaid中的新穎性檢測模型是一個隔離森林,使用一組九個頻譜特征作為輸入,預測每個通道在每個片段中是內點還是新穎點。被NeoNaid標記為新穎點的通道從模型的通道聚合中排除,減少了它們對全局預測的影響。此外,如果一個片段中超過一半的通道被標記為新穎點,則整個片段被標記。
不確定度:NeoNaid的輸出之一是通道級注意力權重。歸一化前,這些通道特定的注意力權重反映了模型對每個通道輸入的確定程度。為識別所有通道都被視為不確定的片段,計算每個片段跨通道的最大未歸一化注意力權重。當此最大注意力權重低于預定義閾值時,該片段被標記為不可靠。該閾值在NeoNaid開發期間使用獨立校準數據集中觀察到的最大注意力權重的第1百分位數定義并固定。除了基于注意力的標記外,對于睡眠分期輸出,QS概率接近0.5的片段也被標記為不確定。
這三個標準共同提供了針對不可靠預測的保守保障。然后,NeoNaid將片段級輸出和質量標記聚合成臨床可解讀的結果。對于FBA,通過取可靠片段的中位數獲得單一的穩健估計;對于睡眠分期,通過平滑概率并使用簡單的啟發式規則對短時不可靠區間進行插值,構建連續睡眠圖。
- 4.
性能指標
功能性大腦年齡:對于每個記錄,全局FBA估計定義為通過質量控制的所有片段級預測的中位數。性能用量化絕對誤差,定義為全局FBA估計與嬰兒記錄時PMA之間的絕對差值。誤差越低表示性能越好。保留的片段級估計的四分位距(IQR)被報告為預測置信度的度量,IQR越寬表示預測確定性越低。
睡眠分期:對于睡眠分析,評估NeoNaid檢測QS的能力。為此,模型的AS和清醒預測被合并為一個單一類別,代表非安靜睡眠類。被標記為不可靠的片段上的預測被排除。性能用科恩卡巴(Cohen’s kappa)分數衡量,分數越高表明預測睡眠階段與專家標注之間的一致性越好。
- 5.
分析
分析旨在評估質量控制的影響以及NeoNaid跨數據集的泛化能力。研究者將完整處理流程應用于兩個數據集:數據集A(內部)和數據集B(外部)。比較了兩種方法:包含所有片段級預測的樸素方法和排除被質量控制標記的片段的穩健方法。
質量控制的效果:首先量化了兩個數據集中質量控制標記的發生率。對于FBA估計,性能被評估為EEG記錄時長的函數,因為穩健方法的效果在較短時長的EEG中最為明顯。為模擬不同的EEG時長,從每個記錄中提取從30秒到1小時的子時段。對于每個時長,每個記錄隨機選擇1000個子時段。計算每個時長的中位數FBA和相應的性能指標,從而評估記錄長度和質量控制流程的納入如何影響預測誤差。對于睡眠分期,使用樸素和穩健兩種方法計算完整記錄上安靜睡眠檢測的科恩卡巴分數并比較性能。
跨中心驗證:最后,在完整的EEG記錄上驗證穩健方法論(即包含質量控制)。記錄級結果以兩種方式分析和可視化。首先,分別報告每個通道的FBA和睡眠性能指標,以及在聚合各通道預測后獲得的全局結果。其次,展示性能隨PMA的變化,以研究預測準確性是否系統性地受到新生兒年齡的影響。
結果
- 1.
NeoNaid質量控制減少誤差
研究者首先調查了質量控制流程如何影響自動化分析。對于FBA,內部數據集中位數拒絕率為21.5%,外部數據集為16.1%。睡眠分期的拒絕率較低,中位數分別為2.0%(內部)和2.4%(外部),這主要是由于啟發式后處理(對短時不可靠區間進行插值,并在預測清醒周期期間保留含有高振幅運動偽跡的片段)。
分析三個質量控制標準的拒絕率,片段最常被標記為偽跡。在FBA數據中,內部數據集22.9%和外部數據集19.6%的片段被標記為偽跡;睡眠數據觀察到類似比率。新穎性檢測貢獻較小,在內部和外部數據的FBA片段中分別標記了1.1%和2.4%,睡眠片段中分別標記了4.1%和3.4%。在FBA中被標記為不確定的片段貢獻率為3.3%(內部)和7.2%(外部),在睡眠中為4.6%(內部)和2.2%(外部)。總體而言,中心間數據質量相當,盡管采集系統和協議存在差異,外部數據并未顯示出分布外。
接下來,研究者在兩個數據集中調查了質量控制對FBA性能的影響。總體而言,穩健方法(應用片段拒絕)和樸素方法(不應用)產生了相似的中位數FBA誤差值。這是預期的,因為使用中位數作為聚合指標減少了對異常片段的影響。盡管如此,穩健方法始終顯示出產生極端異常值的可能性更低,特別是在較短記錄中,這證明了其在最小化風險方面的價值。FBA估計的中位數IQR最初隨數據長度增加,然后在使用約20分鐘可用數據后趨于穩定。這表明,在可用數據少于20分鐘非拒絕EEG的記錄中,IQR值應謹慎解讀,因為有限的數據可用性可能低估了實際潛在分布的IQR。
安靜睡眠檢測性能顯示,在已經相對干凈和有標注的睡眠數據上,質量控制帶來了適度的性能改進。由于不可用的片段未被專家標注,因此未包含在性能評估中。雖然在此評估設置中質量控制的好處不那么顯著,但其主要價值在于防止在實踐中遇到低質量數據時產生不可靠預測。
- 2.
NeoNaid的跨中心驗證
研究者使用完整記錄的穩健方法調查了兩個數據集的結果,以驗證NeoNaid的跨中心泛化能力。使用穩健方法,數據集A的平均絕對FBA誤差為0.60周,數據集B為0.69周。誤差在1周以內的記錄百分比在數據集A為79%,數據集B為74%。此外,在數據集A中,70%的記錄的真實PMA落在每片段預測的IQR內,而在數據集B中為58%。
對于安靜睡眠檢測,兩個數據集的性能都很高。在數據集A中,記錄級卡巴分數平均為0.86,在數據集B中平均為0.79。當將分析限制在單個通道,特別是C3、Cz和C4周圍的雙極導聯時,獲得了可比較的結果。當匯集所有記錄時,數據集A的總體卡巴分數為0.874,數據集B為0.831。
FBA和安靜睡眠檢測的性能在通道間相對一致,這表明即使在有限或單通道輸入的情況下,軟件也能提供可靠的結果。然而,雖然組合所有通道在性能中位數上并非總是優于最佳單個通道,但它通常有助于減少異常記錄中的誤差,提供更好的魯棒性。
最后,研究者評估了模型性能與嬰兒年齡的比較。對于FBA模型,FBA誤差與PMA之間沒有顯著的線性相關性,表明模型在所有年齡段表現均等。相反,對于睡眠分期,存在安靜睡眠性能隨年齡增長而改善的趨勢。在數據集B的一個案例中,模型未能檢測到任何安靜睡眠,而專家標注指示了一段15分鐘的安靜睡眠時段,導致卡巴分數為零。該15分鐘的安靜睡眠時段包含多個高振幅偽跡,導致模型將其誤分類為清醒。
討論
本研究目的有二:第一,評估質量控制流程在改善自動化新生兒EEG分析可靠性方面的貢獻;第二,在來自兩個醫院設置的獨立數據集上驗證NeoNaid的性能。
研究發現,質量控制減少了極端誤差并提供了透明的置信度度量,特別是對于較短或噪聲較多記錄中的功能性大腦年齡估計。NeoNaid的集成質量控制框架通過偽跡檢測、新穎性檢測和基于注意力的確定性評分來評估每個EEG片段的可靠性。結果表明,該框架通過降低極端誤差的可能性同時保留有效信息,改善了自動化新生兒EEG分析的可靠性。雖然平均性能指標僅發生適度變化,但這些保障措施在最小化風險方面被證明是有價值的,尤其是在較短或較低質量的記錄中。因此,這些流程增加了對NeoNaid生成輸出的臨床信任。
NeoNaid在獨立的外部數據集上進行驗證時保持了性能,盡管存在采集硬件、配置和協議的差異。此外,外部數據未被質量控制流程識別為分布外。這項跨中心驗證提供了初步證據,表明該方法可以在臨床環境中泛化,解決了采用自動化新生兒EEG分析的一個重要障礙。
NeoNaid的一個關鍵特性是它不局限于特定的配置或通道數量。模型在單個雙極導聯上操作時與完整五通道設置相比,產生了可比較的結果。這對于通道可用性有限的臨床場景尤其重要,例如振幅整合腦電圖(aEEG)監測,其中可能只能獲取一個或兩個通道。這種靈活性進一步增強了NeoNaid在不同監測環境中的臨床適用性。
性能未隨PMA發生顯著變化,盡管在低于30周或高于40周PMA的記錄中觀察到略微較大的誤差趨勢。這種模式可能反映了在這些極端年齡范圍內可用的訓練和驗證數據有限,而非系統性偏差。相反,睡眠分期性能隨年齡增長而明顯改善。年齡較大的新生兒安靜睡眠檢測的卡巴分數較高,而年齡較小的嬰兒表現稍低。這可能是因為在早期發育階段,活動睡眠和安靜睡眠之間的區分不太明顯。
與先前研究進行比較,NeoNaid的FBA性能優于或可媲美較早的模型。類似地,NeoNaid在安靜睡眠檢測中的性能也與先前報道卡巴分數高達0.77的模型保持一致。
NeoNaid對臨床和研究應用均有價值。在臨床實踐中,自動睡眠分期和FBA估計有助于監測大腦發育,特別是對于早產兒。伴隨FBA估計的IQR提供了實用的置信度度量,幫助臨床醫生更有效地解讀結果。內置的質量控制指示器可以提醒用戶注意不可靠的片段,降低因偽跡或信號退化而導致誤判的風險。對于研究人員,NeoNaid提供了一種可擴展的解決方案,用于以標準化方式標注大型EEG數據集。它在研究神經發育軌跡、睡眠-覺醒組織以及對治療干預的反應時尤其有用。
本研究存在若干局限性。外部數據集中的記錄數量相對較少,限制了泛化主張的統計效力。睡眠標注由不同中心的評估者完成,缺乏正式的評估者間可靠性評估,這可能引入偏差。此外,外部記錄持續時間較短,缺乏伴隨的生理或視頻數據,這使標注更具挑戰性。最后,外部驗證僅限于單一中心。未來的工作將側重于擴大合作,納入更多外部數據集和更廣泛的人群,以進一步驗證和完善NeoNaid平臺。
總而言之,研究表明NeoNaid是自動化新生兒EEG分析的穩健工具,在具有不同記錄設置的兩個數據集中保持了性能。其集成的質量控制流程減少了極端誤差并提高了可信度,解決了臨床采用的關鍵要求。這代表了向更廣泛地在新生兒EEG中使用AI工具邁出的重要一步,因為在新生兒EEG中,采集設置的差異很常見且難以標準化。最終,這些結果支持了NeoNaid在NICU實踐和新生兒腦監測大規模研究中的潛力。