基于強化學習的控制方法,采用Y型仿射神經網絡(YANNs)
《Computers & Chemical Engineering》:Reinforcement learning-based control via Y-wise Affine Neural Networks (YANNs)
【字體:
大
中
小
】
時間:2026年03月01日
來源:Computers & Chemical Engineering 3.9
編輯推薦:
強化學習與YANNs結合的控制器,通過初始化近似線性系統解提高安全性,避免探索階段風險,在擺桿和化工反應器案例中優于傳統RL算法。
奧斯汀·布蘭尼夫 | 天宇赫
美國西弗吉尼亞大學化學與生物醫學工程系,摩根敦,西弗吉尼亞州
摘要
本文提出了一種基于Y向仿射神經網絡(YANNs)的新型強化學習(RL)算法。YANNs提供了一種可解釋的神經網絡,能夠精確表示在任意數量的多面體子域上定義的任意輸入和輸出維度的已知分段仿射函數。YANNs的一個典型應用是重新構建多參數線性模型預測控制的顯式解。在此基礎上,我們提出使用YANNs來初始化RL的演員網絡和評論家網絡,從而使最終的YANN-RL控制算法能夠從線性最優控制的信心出發。YANN-演員網絡通過使用近似的線性系統模型離線計算得到的多參數控制解來進行初始化。YANN-評論家網絡表示線性系統的狀態-動作價值函數的顯式形式,以及最優控制問題(OCP)中的目標函數。通過增加額外的網絡層,YANNs可以擴展到非線性表達式,并且可以通過與真實的復雜非線性系統直接交互來進行在線訓練。這樣,策略和狀態價值函數最初可以精確表示線性OCP,并最終能夠學習一般非線性OCP的解。還實現了連續的策略改進,以提供啟發式的信心,即線性OCP解可以作為RL策略性能的有效下限。在剪切擺和關鍵安全性的化學反應系統中展示了YANN-RL算法的效果。我們的結果表明,與使用深度確定性策略梯度的現代RL算法相比,YANN-RL具有顯著的優勢,特別是在考慮安全約束時。
引言
強化學習(RL)已成為現代最具前景的技術之一(Dogru等人,2024年;Shin等人,2019年)。自從首次展示將神經網絡(NNs)集成到RL算法中以實現類似人類的游戲控制能力以來,針對這一解決問題的策略的研究顯著增加(Mnih等人,2015年)。RL在許多領域顯示出了巨大潛力,包括游戲玩法(Silver等人,2017年;Silver等人,2016年)、機器人技術(Kaufmann等人,2023年)、生產調度(Wang和Zhao,2024年;Hubbs等人,2020年)、過程設計(Braniff等人,2025b;Reynoso-Donzelli和Ricardez-Sandoval,2025年)等。
由于起源于最優控制理論,RL也被應用于過程系統的直接控制。RL已被證明是生物處理(Petsagkourakis等人,2020年)、蒸餾塔(Spielberg等人,2019年)、化學反應器(Faria等人,2023年)、批量處理(Joshi等人,2021年)和多罐系統(Dogru等人,2021年)的有效控制算法。盡管取得了這些進展,RL在化學和能源系統的控制中仍未得到廣泛采用。主要障礙包括學習過程中的固有不信任以及整體缺乏可解釋性(Wang等人,2025年;Braniff等人,2025a;Nian等人,2020年)。在RL中,探索階段允許代理發現可能導致更優行為的新動作,但這可能是不安全的,因為它通常涉及嘗試隨機和未經測試的動作,可能導致不良或不安全的行為。這些問題阻礙了基于RL的控制算法的實際應用,特別是在需要對控制器保持安全和穩定操作的能力有信心的關鍵安全系統中(Faria等人,2022年;Yoo等人,2021年)。
為了解決這些挑戰,近年來做出了大量努力。一類策略是使用來自其他更受信任的控制方法(如模型預測控制(MPC)(Hassanpour等人,2024b;Hassanpour等人,2024a)生成的數據來預訓練RL策略網絡。然后RL代理基于此策略網絡直接計算控制動作。如果希望保持無模型RL的前提,可以采用線性MPC,因為可以通過多種技術(例如系統識別)輕松近似線性系統模型(Hassanpour等人,2025年)。如果有可靠的高保真系統模型,也可以使用基于模型的RL方法。許多基于模型的RL方法還可以提供關于安全性、穩定性或兩者的某種信心(Kim和Oh,2024年;Kim和Kim,2022年;Kim和Lee,2020年;Berkenkamp等人,2017年)。另一類策略是以更間接的方式將RL用作PID控制的監督角色(Bloor等人,2025年;Chowdhury等人,2023年;Dogru等人,2022年)。這是一種改進基于PID控制的有前景的方法,但由于每個子級控制器都受限于單輸入-單輸出(SISO)控制律而受到限制(Beahr等人,2024年;Lawrence等人,2022年)。RL還用于高級(經濟)MPC的調優(Gros和Zanon,2020年)。在這種情況下,RL代理再次以監督方式發揮作用,不直接計算控制動作,而是根據系統反饋數據指導控制器做出更好的決策(Alhazmi等人,2022年)。一個結合RL和MPC的有趣例子是AC4MPC算法,它利用基于RL的控制動作作為MPC問題的熱啟動,而基于RL的價值函數為問題提供了更好的終端成本估計(Reiter等人,2024年)。許多其他工作研究了同時利用MPC和RL優勢的各種方法(Hedrick等人,2022年;Kim等人,2021年)。
為了開發更安全的RL算法,基于李雅普諾夫的方法引起了極大的興趣。在這些算法中,在線學習一個近似的李雅普諾夫函數。RL代理確定的控制動作是為了滿足某些穩定性或安全條件而生成的,使用李雅普諾夫替代函數(Chang和Gao,2021年;Chow等人,2018年)。這也被擴展到控制李雅普諾夫屏障函數(CLBFs)和隨機CLBFs,它們可以同時提供安全性和穩定性屬性(Zhu等人,2025年;Wang和Wu,2024年)。其他形式的安全RL包括:線性系統的安全探索(Marvi和Kiumarsi,2022年)、離線訓練階段后恢復安全保證(Thananjeyan等人,2021年)、集成線性魯棒MPC的原則(Zanon和Gros,2021年)、控制不變集(CIS)(Wang等人,2024年;Bo等人,2023年)以及具有機會約束的高斯過程模型(Mowbray等人,2022年)。然而,這些方法通常需要對系統有大量的先驗知識、高保真系統模型和/或密集的計算能力。此外,這些方法在學習系統模型和/或訓練RL代理時必須經歷探索階段,這在實踐中可能本質上是不安全的(García和Fernández,2015年)。為此,需要一種基于RL的控制算法,它可以提高可解釋性、穩定性和計算效率,同時避免在不安全的關鍵系統中實施不安全的探索階段。
在這項工作中,我們提出了一種基于Y向仿射神經網絡(YANNs)的RL算法,如圖1所示。在我們之前的工作中(Braniff和Tian,2026年)開發的YANNs是一種專門的神經網絡,能夠精確表示在任意數量的多面體子域上定義的任意輸入和輸出維度的已知分段仿射函數。多參數模型預測控制(mp-MPC)是YANNs的一個重要應用,它理論上可以將最優控制律計算為系統狀態、輸出、設定點和擾動的分段仿射函數(Pistikopoulos等人,2020年)。鑒于此,演員網絡和評論家網絡可以通過mp-MPC初始化,以表示最優控制問題的顯式解和目標。因此,YANNs可以作為提供可解釋、高效和有信心的RL算法的起點。這使得算法可以從線性最優控制的完整理論和嚴格保證開始,從而完全跳過RL的探索階段。這些演員和評論家網絡可以以這樣的方式創建,它們可以使用本工作中開發的技術來近似任意復雜度的一般非線性函數。我們進一步討論了如何持續改進算法,從而保證參數化的控制策略永遠不會比通過解決線性最優控制問題(OCP)找到的線性多參數控制策略更差。在關鍵安全系統的控制中,安全約束的遵守至關重要,這一點在一個化學反應過程的案例研究中得到了突出展示。
本文的其余部分組織如下:第2節簡要概述了必要的數學基礎,并為本工作制定了術語。第3節回顧了YANNs對分段仿射函數的精確表示,并擴展了網絡公式以引入非線性。第4節介紹了基于YANN的RL原理,包括YANN-演員、YANN-評論家以及整個RL算法。第5節通過兩個案例研究展示了YANN-RL的優勢:(i)剪切擺;(ii)關鍵安全性的化學反應器。第6節給出了結論性意見,并討論了未來的研究方向。
節選
強化學習簡介
RL是一種用于解決各種動態規劃問題的方法。它最常被引入為解決馬爾可夫決策過程(MDPs)的方法,后者是一類特殊的隨機動態程序。然而,在這項工作中,我們應用RL原理,旨在盡可能少地對真實系統做出假設,同時使用確定性策略。對于比以下內容更全面的介紹,讀者可以參考Sutton和Barto的著作。
YANNs概述
YANNs是我們之前工作中開發的一種特定架構(Braniff和Tian,2026年)。它們能夠精確表示在任何數量的多面體子域上定義的任意維度的輸入和輸出的分段仿射函數。YANN是一個5層神經網絡,能夠將這些已知函數精確地重新表示為整個連續域空間中的連續精確表示。YANNs可以用來表示獲得的顯式控制解
YANN-演員
基于YANN的演員網絡易于建立,因為原始的YANN公式可以表示已知的最優控制律。為了開發一個由YANN初始化的策略網絡,需要離線解決一個mp-MPC問題(方程(9)以找到分段仿射的顯式控制律。可以使用簡化的線性系統模型,例如從過程數據中近似得到的模型。之后,可以按照我們之前的工作(Braniff和Tian,2026年)中的步驟創建YANN。可以添加更多的節點和/或層
剪切擺
在第一個案例研究中,我們考慮了一個關于支點的簡單擺,這是一個廣泛用于基于RL控制的基準系統。希望通過對其施加扭矩將擺移動到垂直位置。為了簡化問題,我們考慮了一個受限的初始位置,以避免經典的難以控制的擺動問題。這個案例研究的動機是突出YANN-DDPG與DDPG相比的潛在優勢。
結論
在這項工作中,我們提出了一種基于YANNs的新型RL算法,YANNs是具有控制理論應用所需特性的可解釋神經網絡。該算法代表了我們在自信地部署RL算法進行化學和能源系統的最優控制方面的范式轉變。我們展示了如何初始化基于YANN的演員和評論家網絡,以精確表示線性最優控制問題的解和目標。我們討論了如何
CRediT作者貢獻聲明
奧斯汀·布蘭尼夫:撰寫——原始草稿,驗證,軟件,方法論,概念化。天宇赫:撰寫——審閱與編輯,驗證,監督,方法論,概念化。
利益沖突聲明
作者聲明他們沒有已知的可能會影響本文報告工作的競爭財務利益或個人關系。
致謝
作者感謝NSF RETRO項目CBET-2312457、NSF GRFP(2024370240)以及西弗吉尼亞大學化學與生物醫學工程系的財政支持。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號