久久精品国产77777蜜臀,中文字幕第4页,91视频在线看

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

通過神經分數微分方程實現連續時間記憶依賴系統中的強化學習

《Neurocomputing》：Reinforcement learning in continuous-time memory-dependent systems via neural fractional differential equations

【字體：大中小】 時間：2026年03月02日 來源：Neurocomputing 6.5

編輯推薦：

　　提出基于神經分數微分方程（Neural FDEs）的強化學習框架，通過Caputo分數導數建模麻醉藥物的記憶依賴效應，結合軟 actor-critic算法實現BIS指標的閉環控制，驗證其相比整數階模型更優的魯棒性和適應性。

Madasamy Vellappandi | Sangmoon Lee

韓國大邱慶北國立大學電子與電氣工程學院

摘要

閉環麻醉控制需要準確建模藥物作用的延遲和累積效應，而這些效應使用標準的整數階動態系統難以捕捉。在這項工作中，我們提出了一種強化學習框架，其中環境動態由神經分數階微分方程（Neural FDEs）表示，從而實現具有記憶依賴行為的連續時間建模。分數階公式通過結合與麻醉藥物反應相關的歷史依賴效應，對神經常微分方程（Neural ODEs）進行了擴展。訓練了一個Soft Actor–Critic（SAC）智能體，在臨床驅動的約束條件下調節雙譜指數（BIS）。基于患者特定BIS數據的仿真結果表明，與整數階和基于神經常微分方程的環境模型相比，該框架具有更強的跟蹤性能和更高的魯棒性。這些發現凸顯了神經分數階微分方程作為自動化麻醉中記憶依賴控制問題有效環境模型的潛力。

引言

神經網絡在現代機器學習中發揮著核心作用，并在計算機視覺[1]、自然語言處理[2]和機器人技術[3]等領域取得了顯著成功。然而，傳統的神經網絡作為離散的輸入-輸出映射，缺乏對連續時間動態的顯式表示，這限制了它們在模擬受物理或生理過程支配的系統時的有效性[4]。為了解決這一限制，引入了神經常微分方程（Neural ODEs）來通過神經網絡參數化隱藏狀態的演變作為連續時間動態系統[5]。雖然神經常微分方程提供了平滑的軌跡建模和更好的時間一致性，但它們本質上是馬爾可夫的，因此在表示當前行為強烈依賴于過去狀態和輸入的系統時存在局限性。

分數階微積分通過引入非整數階導數，為經典整數階微分方程提供了自然的擴展，這些導數明確編碼了記憶和遺傳效應[6]、[7]。與描述瞬時變化率的整數階導數不同，分數階導數將系統演化定義為過去狀態隨時間的加權累積。這一特性使得分數階模型特別適合描述表現出長距離時間依賴性和歷史依賴行為的物理[8]、生物[9]、[10]和經濟系統[11]。基于這一理念，神經分數階微分方程（Neural FDEs）將神經網絡與分數階動態相結合，為具有記憶的連續時間系統提供了靈活的數據驅動框架[12]、[13]、[14]。與神經常微分方程相比，神經分數階微分方程無需顯式狀態增強或復雜的模型結構即可自然表示非馬爾可夫動態。

需要強調的是，本工作中使用分數階動態并不意味著麻醉藥代動力學或藥效學嚴格遵循內在的生理冪律機制。相反，分數階導數作為一種現象學和數據驅動的建模工具，用于捕捉臨床數據中觀察到的歷史依賴性和累積效應，提供了對聚合延遲、重新分配過程和延長神經反應的緊湊表示，這些效應使用整數階系統難以明確建模。

在這項研究中，使用Caputo分數階導數來構建神經分數階微分方程，該導數允許使用物理上可解釋且常用于控制應用的標準整數階初始條件。相比之下，Riemann–Liouville導數需要難以測量的分數階初始條件，而Grunwald-Letnikov形式常常引入數值不穩定性。因此，Caputo導數在可解釋性、數值穩定性和準確性之間提供了實用的平衡，使其非常適合控制應用。其主要限制是由于評估歷史項而導致的計算成本略微增加，但這種權衡因其捕捉長期依賴性的能力而得到證明。

這些方程通常使用數值穩定的方法求解，如Adams-Bashforth預測-校正方案，該方法支持對復雜時間依賴性的高效學習。選擇Adams-Bashforth預測-校正方法是因為它在穩定性、準確性和計算成本之間提供了穩健的折中。與許多隱式分數階求解器相比，它有助于訓練期間的穩定梯度傳播，并避免了Grunwald-Letnikov方法的數值不穩定性和高昂的內存需求。這使得它在需要重復前向仿真的強化學習框架中特別有效。最近的研究探討了基于物理的神經分數階微分方程[15]和變階分數動態[16]，證明了這些模型在表示復雜、記憶依賴系統方面的有效性。

自動化麻醉管理是一個具有挑戰性和臨床相關性的控制問題，需要在考慮患者個體差異和藥物延遲效應的同時，準確調節患者的無意識程度。麻醉深度通常使用雙譜指數（BIS）來監測，BIS是一個從腦電圖（EEG）信號中得出的標量值[17]、[18]。傳統的控制方法，如比例-積分-微分（PID）控制器，依賴于固定的控制律和有限的系統內存，這限制了它們適應患者特定反應和不斷變化的生理條件的能力[19]、[20]。

人工智能和強化學習（RL）的最新進展推動了基于數據的麻醉劑量控制策略的發展。集成藥代動力學/藥效學（PK/PD）模型的模型驅動RL方法在多個醫學領域展示了強大的精確劑量和自適應治療潛力，包括麻醉、抗凝和化療[21]、[22]。特別是，連續動作深度RL公式實現了細粒度的丙泊酚劑量調節，與傳統的PID控制器相比，實現了更平滑和更安全的BIS調節[23]。此外，最近的綜述強調自動化和閉環麻醉控制仍然是活躍的研究領域，存在與模型可解釋性、魯棒性和臨床轉化相關的持續挑戰[24]、[25]。

強化學習（RL）已成為順序決策和自適應控制的強大替代方案[26]。無模型RL算法，如Soft Actor–Critic（SAC），可以直接從與環境互動中學習最優控制策略，而無需顯式模型[27]、[28]、[29]。在這項研究中，由于SAC算法的樣本效率、訓練穩定性和適用于連續動作空間的特點，因此采用了SAC算法作為強化學習的核心。SAC的離策略學習策略允許它重用回放緩沖區中的過去經驗，顯著提高了學習效率，尤其是在環境交互計算成本較高的情況下。此外，SAC的最大熵公式促進了探索與利用之間的平衡，確保了魯棒收斂并防止了策略過早停滯。這些特性使得SAC特別適合實時、安全關鍵的控制任務，如麻醉劑量調節，其中適應性和可靠性至關重要[30]。SAC及相關RL方法在多個領域也取得了成功，包括多智能體通信系統[31]、金融投資組合優化[32]和基于EEG的情緒檢測[33]，在這些領域中實時決策和動態適應至關重要。然而，大多數現有框架仍然假設具有馬爾可夫動態的離散時間環境，這限制了它們在需要連續時間建模和長期記憶整合的領域的適用性。

為了彌合這一差距，我們提出了神經分數階微分方程與無模型強化學習的新型集成。在所提出的框架中，將神經網絡嵌入到分數階微分方程中以模擬環境動態。網絡根據當前狀態和動作預測系統狀態的變化率，而分數階導數捕捉記憶效應。神經分數階微分方程的數值積分產生連續時間軌跡，SAC智能體利用這些軌跡學習自適應控制策略。這種組合使得該框架能夠以無模型的方式處理非線性、歷史依賴的動態，同時支持具有長距離依賴性建模和實時控制的連續時間模擬。我們將這種方法應用于自動化麻醉管理，證明了在比傳統控制方法和基線RL環境更弱的建模假設下具有競爭力的跟蹤性能。

本文的其余部分組織如下。第2節介紹了環境模型的基礎組成部分，包括神經分數階微分方程（Neural FDEs）、藥代動力學/藥效學（PK/PD）模型以及作為鎮靜指標的雙譜指數（BIS）。第3節詳細介紹了強化學習方法，涵蓋了三種不同的環境表示形式：由PK/PD模擬驅動的狀態更新、僅使用BIS數據的預訓練神經分數階微分方程模型以及基于實時神經分數階微分方程的環境。第4節總結了本文的貢獻和未來研究的方向。

章節摘錄

麻醉控制的環境建模

本研究通過優化丙泊酚輸注來調節麻醉深度，以達到目標雙譜指數（BIS），這是一種基于EEG的臨床驗證的無意識度量。BIS值的范圍從0（深度麻醉）到100（完全清醒），其中50被認為是全身麻醉的最佳值。準確建模患者對丙泊酚的動態反應對于設計有效的閉環控制策略至關重要。

為了模擬丙泊酚輸注期間的BIS反應

基于強化學習的麻醉控制

本研究采用無模型強化學習（RL）方法進行閉環麻醉控制，以雙譜指數（BIS）作為主要反饋信號。在無模型強化學習中，智能體通過與環境的互動學習控制策略，而無需在策略本身中包含顯式分析模型。在這項工作中，盡管SAC智能體在策略層面是無模型的，但考慮了不同的環境表示形式

結論

本研究引入了一個使用神經分數階微分方程（Neural FDEs）作為連續時間環境的強化學習框架，用于控制具有記憶依賴動態的系統，在閉環麻醉中得到了驗證。神經分數階微分方程通過引入分數階動態，擴展了標準神經常微分方程，使系統能夠捕捉長距離記憶效應，同時在某些條件下恢復標準常微分方程的行為。利用這種具有記憶意識的表示，RL-SAC智能體可以

CRediT作者貢獻聲明

Madasamy Vellappandi：撰寫——原始草稿、可視化、驗證、方法論、形式分析、數據整理、概念化。Sangmoon Lee：撰寫——審稿與編輯、可視化、驗證、監督、軟件、資源、項目管理、方法論、研究調查、資金獲取、數據整理、概念化。

利益沖突聲明

作者聲明他們沒有已知的競爭財務利益或個人關系可能影響本文報告的工作。

致謝

本研究得到了韓國國家研究基金會（NRF）的支持，通過韓國政府科學和ICT部的RS-2024-00350118號資助。

M. Vellappandi于2023年在印度普杜切里國家技術學院獲得數學博士學位。他目前是韓國大邱慶北國立大學的博士后研究員。他發表了超過17篇SCI期刊論文。他的研究興趣包括深度學習、強化學習、最優控制和機器人應用。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號