《Neural Networks》:Deep Reinforcement Learning for Carrier-Based Aircraft Flight Deck Operations Scheduling Problem
編輯推薦:
針對NP難的航母飛行甲板調度問題,本研究提出融合圖神經網絡(GNN)與深度強化學習(DRL)的新框架。通過將問題建模為馬爾可夫決策過程(MDP),利用GNN捕捉任務依賴與資源約束關系,顯著提升調度效率與質量,決策時間從分鐘級降至秒級,滿足實時需求。
作者列表:李長久|韓偉|李海旭|劉杰|王新偉|張勇|蘇希超
中國山東省煙臺市264001,海軍航空大學
摘要
飛行甲板操作調度是一個NP難組合優化問題,傳統方法在計算效率和解決方案質量之間存在關鍵權衡。為了解決這一挑戰,我們提出了一個結合圖神經網絡的深度強化學習框架來優化這一過程。該問題被構建為一個馬爾可夫決策過程,允許調度代理直接從環境狀態生成調度方案。我們的分析表明,結合折扣因子1.0的softmax探索策略為通用性提供了穩健的配置。實驗結果表明,該代理在解決方案質量方面優于傳統的優先調度規則。與元啟發式算法相比,我們訓練有素的代理在小規模問題上表現出了競爭力,并在大規模實例上展示了更強的搜索能力。值得注意的是,該代理將元啟發式算法所需的幾十分鐘決策時間縮短到了幾秒鐘,同時產生了滿足實時操作需求的高質量解決方案。
引言
基于航母的飛機出動能力是現代海上戰爭的基石,是海軍編隊投射戰斗力的主要手段。這一能力的有效性取決于飛行甲板操作的高效執行——這需要物流人員、甲板資源和指揮決策的復雜協調。隨著未來沖突對強度、精確度和效率提出前所未有的要求,優化這些操作的調度不僅僅是一個改進措施,更是提高航空母艦戰斗準備狀態和效能的戰略要求。
然而,當前的飛行甲板調度范式存在嚴重局限性。現有操作主要依賴于指揮官基于經驗的判斷,導致調度方案往往缺乏靈活性、最優性和適應性。這種手動方法經常面臨協調不精確、資源利用低和操作瓶頸等問題,從而危及飛行操作的安全、秩序和節奏。隨著全球向多類型飛機艦隊和智能支持系統發展的趨勢,協調高節奏出動的規模和復雜性使得傳統的經驗驅動方法變得不可行。迫切需要轉向敏捷和智能的調度技術。
這一挑戰的核心在于基于航母的飛機飛行甲板操作調度問題(CAFDS)的復雜性。從根本上說,CAFDS是一個高維組合優化問題,其特征是空間-時間約束緊密耦合。有限的甲板空間(空間約束)、有限人員和設備的競爭(資源約束)以及嚴格的操作優先級(程序約束)共同構成了一個計算上極具挑戰性的搜索空間。低效的調度可能導致延誤,顯著降低出動率并危及操作安全。這一內在難點成為本研究的核心動機:開發一種新的調度范式,以應對CAFDS的復雜性,提供實時的高質量解決方案。
為了解決這個問題,我們轉向了人工智能(AI)技術領域,特別是深度強化學習(DRL),它為在復雜和動態環境中學習最優決策策略提供了強大的框架。然而,將DRL應用于CAFDS面臨兩個重要且具體的挑戰:
首先是表示挑戰:標準的DRL代理通常處理扁平化的狀態向量,這種格式不適合捕捉調度問題中固有的豐富關系和拓撲結構。CAFDS中復雜的任務依賴性和資源約束網絡在這種表示方式下丟失,導致代理無法做出真正有根據的、具有上下文意識的決策。
其次是效率與質量的權衡:雖然傳統的元啟發式算法可以生成高質量的調度方案,但其高昂的計算成本使其不適用于飛行甲板的實時動態環境。相反,如果DRL代理未能理解問題的底層結構,它可能會快速做出決策,但犧牲了關鍵的解決方案質量。
為了克服這些挑戰,我們引入了一個將圖神經網絡(GNN)與DRL相結合的新框架。通過明確建模問題的結構,我們可以克服上述挑戰。具體來說,我們利用GNN的力量來學習操作狀態的豐富、結構感知的嵌入。這使得DRL代理能夠理解復雜的依賴關系。同時,DRL框架促進了端到端的策略學習,確保可以在幾秒鐘內做出高質量決策,從而解決了效率與質量的權衡問題。
本工作的主要貢獻和創新有三方面:
首先是理論建模創新:我們將CAFDS問題形式化為一個馬爾可夫決策過程(MDP),為應用強化學習(RL)提供了數學基礎。通過系統地定義狀態空間、動作空間和基于核心MDP元素的獎勵函數,我們將一個靜態優化問題轉化為一個適合基于學習的動態決策過程。
其次是方法論創新:我們引入有向無環圖(DAG)來表示CAFDS中的優先級約束和資源依賴關系。然后使用GNN從這個圖結構中學習深度特征嵌入。這種基于圖的表示方法比傳統的DRL方法有顯著的方法論進步,因為它使代理能夠明確地理解關系信息,從而制定出智能且具有遠見的調度策略。
第三是實際應用價值:我們開發并實現了一個基于優勢演員-評論家(A2C)算法的調度器,該算法與我們的GNN架構集成。全面的實驗驗證了其實際效用。我們的代理不僅超越了傳統的調度規則,而且在大規模實例上實現了更優的解決方案質量。最重要的是,它將決策時間從元啟發式算法通常所需的幾分鐘縮短到了幾秒鐘,凸顯了其在復雜操作環境中進行實時高性能調度的巨大潛力。
本文的結構如下:第2節回顧了相關工作。第3節概述了CAFDS問題的背景及其具體挑戰。第4節介紹了我們的MDP建模和增強型GNN DRL算法。第5節討論了實驗設置并分析了性能結果。最后,第6節總結了工作并指出了未來的研究方向。
章節片段
CAFDS的發展
為了提高飛行甲板操作的效率,美國軍方自20世紀70年代以來開發了航空數據管理和控制系統。其中一個系統是電子靈應板(Electronic Ouija Board),以及目前安裝在航空母艦上的航空數據管理和控制系統(ADMACS)。這些系統提供了跟蹤飛行計劃和提供起飛及回收操作視覺記錄的工具,顯著增強了飛行甲板操作的能力
問題陳述
為了確保艦隊保持必要的系統安全性和作戰效能,以便在直接出動和重新出動準備階段將飛機從機庫或回收軌道運輸并停靠在指定的服務停車位,以支持航空作業,航空后勤支持人員將執行一系列后勤操作,包括加油、液壓供應、氣體填充等
方法論
本研究通過引入一個基于GNN的集成DRL算法來解決CAFDS中的復雜性,該算法被稱為“代理”。該代理使用A2C算法來訓練神經網絡的參數。以下部分將詳細解釋算法的技術方面,包括MDP的組成部分、神經網絡架構的設計、SGS的選擇過程以及A2C訓練算法的工作流程。
案例實驗
本節將描述為評估所提出的CAFDS優化能力而創建的仿真實例。首先,我們將概述DRL訓練階段的每個步驟。接下來,我們將確定幾種有效的PDR、元啟發式算法以及最近在RCPSP領域發布的DRL算法。這些將作為評估訓練模型有效性和泛化能力的基準參考
管理洞察
這項研究為指揮官提供了一種將飛行甲板操作調度轉變為敏捷執行能力的途徑。通過將AI應用于這一復雜且響應迅速的領域,我們不僅提高了理論性能,更重要的是,提供了一種平衡效率與靈活性的決策支持工具,適用于實際操作。
結論
在這項工作中,我們根據航空后勤支持服務的過程元素和約束條件設計了一個基于MDP的模型,其中包括狀態空間、動作策略、狀態轉換和CAFDS的獎勵函數。我們提出了一個結合GNN網絡的DRL算法來解決這一調度挑戰。所提出的算法經過預訓練和“端到端”部署后,可以生成高質量的CAFDS調度方案
CRediT作者貢獻聲明
李長久:撰寫——審閱與編輯、撰寫——原始草稿、可視化、驗證、監督、資源管理、項目管理、資金獲取。韓偉:調查、資金獲取。李海旭:調查、數據整理。劉杰:調查。王新偉:形式分析、數據整理、概念化。張勇:資金獲取、形式分析、數據整理。蘇希超:方法論、形式分析、數據整理、概念化。
利益沖突聲明
作者聲明他們沒有已知的可能會影響本文所述工作的競爭性財務利益或個人關系。