神經網絡在現代機器學習中發揮著核心作用,并在計算機視覺[1]、自然語言處理[2]和機器人技術[3]等領域取得了顯著成功。然而,傳統的神經網絡作為離散的輸入-輸出映射,缺乏對連續時間動態的顯式表示,這限制了它們在模擬受物理或生理過程支配的系統時的有效性[4]。為了解決這一限制,引入了神經常微分方程(Neural ODEs)來通過神經網絡參數化隱藏狀態的演變作為連續時間動態系統[5]。雖然神經常微分方程提供了平滑的軌跡建模和更好的時間一致性,但它們本質上是馬爾可夫的,因此在表示當前行為強烈依賴于過去狀態和輸入的系統時存在局限性。
分數階微積分通過引入非整數階導數,為經典整數階微分方程提供了自然的擴展,這些導數明確編碼了記憶和遺傳效應[6]、[7]。與描述瞬時變化率的整數階導數不同,分數階導數將系統演化定義為過去狀態隨時間的加權累積。這一特性使得分數階模型特別適合描述表現出長距離時間依賴性和歷史依賴行為的物理[8]、生物[9]、[10]和經濟系統[11]。基于這一理念,神經分數階微分方程(Neural FDEs)將神經網絡與分數階動態相結合,為具有記憶的連續時間系統提供了靈活的數據驅動框架[12]、[13]、[14]。與神經常微分方程相比,神經分數階微分方程無需顯式狀態增強或復雜的模型結構即可自然表示非馬爾可夫動態。
需要強調的是,本工作中使用分數階動態并不意味著麻醉藥代動力學或藥效學嚴格遵循內在的生理冪律機制。相反,分數階導數作為一種現象學和數據驅動的建模工具,用于捕捉臨床數據中觀察到的歷史依賴性和累積效應,提供了對聚合延遲、重新分配過程和延長神經反應的緊湊表示,這些效應使用整數階系統難以明確建模。
在這項研究中,使用Caputo分數階導數來構建神經分數階微分方程,該導數允許使用物理上可解釋且常用于控制應用的標準整數階初始條件。相比之下,Riemann–Liouville導數需要難以測量的分數階初始條件,而Grunwald-Letnikov形式常常引入數值不穩定性。因此,Caputo導數在可解釋性、數值穩定性和準確性之間提供了實用的平衡,使其非常適合控制應用。其主要限制是由于評估歷史項而導致的計算成本略微增加,但這種權衡因其捕捉長期依賴性的能力而得到證明。
這些方程通常使用數值穩定的方法求解,如Adams-Bashforth預測-校正方案,該方法支持對復雜時間依賴性的高效學習。選擇Adams-Bashforth預測-校正方法是因為它在穩定性、準確性和計算成本之間提供了穩健的折中。與許多隱式分數階求解器相比,它有助于訓練期間的穩定梯度傳播,并避免了Grunwald-Letnikov方法的數值不穩定性和高昂的內存需求。這使得它在需要重復前向仿真的強化學習框架中特別有效。最近的研究探討了基于物理的神經分數階微分方程[15]和變階分數動態[16],證明了這些模型在表示復雜、記憶依賴系統方面的有效性。
自動化麻醉管理是一個具有挑戰性和臨床相關性的控制問題,需要在考慮患者個體差異和藥物延遲效應的同時,準確調節患者的無意識程度。麻醉深度通常使用雙譜指數(BIS)來監測,BIS是一個從腦電圖(EEG)信號中得出的標量值[17]、[18]。傳統的控制方法,如比例-積分-微分(PID)控制器,依賴于固定的控制律和有限的系統內存,這限制了它們適應患者特定反應和不斷變化的生理條件的能力[19]、[20]。
人工智能和強化學習(RL)的最新進展推動了基于數據的麻醉劑量控制策略的發展。集成藥代動力學/藥效學(PK/PD)模型的模型驅動RL方法在多個醫學領域展示了強大的精確劑量和自適應治療潛力,包括麻醉、抗凝和化療[21]、[22]。特別是,連續動作深度RL公式實現了細粒度的丙泊酚劑量調節,與傳統的PID控制器相比,實現了更平滑和更安全的BIS調節[23]。此外,最近的綜述強調自動化和閉環麻醉控制仍然是活躍的研究領域,存在與模型可解釋性、魯棒性和臨床轉化相關的持續挑戰[24]、[25]。
強化學習(RL)已成為順序決策和自適應控制的強大替代方案[26]。無模型RL算法,如Soft Actor–Critic(SAC),可以直接從與環境互動中學習最優控制策略,而無需顯式模型[27]、[28]、[29]。在這項研究中,由于SAC算法的樣本效率、訓練穩定性和適用于連續動作空間的特點,因此采用了SAC算法作為強化學習的核心。SAC的離策略學習策略允許它重用回放緩沖區中的過去經驗,顯著提高了學習效率,尤其是在環境交互計算成本較高的情況下。此外,SAC的最大熵公式促進了探索與利用之間的平衡,確保了魯棒收斂并防止了策略過早停滯。這些特性使得SAC特別適合實時、安全關鍵的控制任務,如麻醉劑量調節,其中適應性和可靠性至關重要[30]。SAC及相關RL方法在多個領域也取得了成功,包括多智能體通信系統[31]、金融投資組合優化[32]和基于EEG的情緒檢測[33],在這些領域中實時決策和動態適應至關重要。然而,大多數現有框架仍然假設具有馬爾可夫動態的離散時間環境,這限制了它們在需要連續時間建模和長期記憶整合的領域的適用性。
為了彌合這一差距,我們提出了神經分數階微分方程與無模型強化學習的新型集成。在所提出的框架中,將神經網絡嵌入到分數階微分方程中以模擬環境動態。網絡根據當前狀態和動作預測系統狀態的變化率,而分數階導數捕捉記憶效應。神經分數階微分方程的數值積分產生連續時間軌跡,SAC智能體利用這些軌跡學習自適應控制策略。這種組合使得該框架能夠以無模型的方式處理非線性、歷史依賴的動態,同時支持具有長距離依賴性建模和實時控制的連續時間模擬。我們將這種方法應用于自動化麻醉管理,證明了在比傳統控制方法和基線RL環境更弱的建模假設下具有競爭力的跟蹤性能。
本文的其余部分組織如下。第2節介紹了環境模型的基礎組成部分,包括神經分數階微分方程(Neural FDEs)、藥代動力學/藥效學(PK/PD)模型以及作為鎮靜指標的雙譜指數(BIS)。第3節詳細介紹了強化學習方法,涵蓋了三種不同的環境表示形式:由PK/PD模擬驅動的狀態更新、僅使用BIS數據的預訓練神經分數階微分方程模型以及基于實時神經分數階微分方程的環境。第4節總結了本文的貢獻和未來研究的方向。