生產調度是企業制造過程中的一個核心要素,直接影響制造成本和生產效率。生產調度問題主要由三個部分組成:約束條件、調度目標和調度計劃[1]。作業車間調度問題(FJSP)是生產調度的重要組成部分,它是一個NP難組合優化問題[2]。FJSP克服了資源唯一性的約束,幾十年來一直受到廣泛研究,使其成為該領域研究最多的問題之一。隨著調度問題變得越來越復雜和不確定,迫切需要開發有效的方法來解決包含運輸約束的靈活作業車間調度問題。
由于AGV具有高靈活性、便利性和強大的端到端能力,它們已被廣泛應用于靈活制造系統中的物料處理[3]。許多學者研究了帶有AGV運輸約束的生產調度問題。然而,一方面,車間內的AGV數量足以滿足運輸需求[4];另一方面,尚未考慮AGV的充電和放電等因素[5]。由于AGV分配過程對于加快物流速度、縮短生產周期和提高車間物流智能化至關重要,實際生產中經常發生動態事件。因此,將運輸資源約束整合到動態靈活作業車間調度中在實踐上具有重要意義,同時也具有理論挑戰性。
在學術界,已經廣泛研究了具有已知任務信息的靜態調度,主要使用數學編程等方法來解決問題[6]。然而,在現代生產車間中,調度過程經常遇到各種問題,如機器故障。在復雜的現代制造環境中,獲取所有任務信息可能并不現實。
在解決動態調度問題時,最常見的方法是元啟發式算法和預測性動態重構(PDR)。PDR的優勢在于它能夠在動態事件發生時立即做出反應,但難以實現全局最優[7]。另一方面,元啟發式算法通過將動態調度問題分解為一系列靜態子問題來解決,從而產生更高質量的調度方案。蟻群優化(ACO)[8]、遺傳算法(GA)[9]和粒子群優化(PSO)[10]等算法已在此領域得到廣泛應用。這些算法在一定程度上改善了動態調度,但由于算法設計中存在隨機因素,解決方案的質量可能不穩定。此外,它們難以處理計劃頻繁更新的環境。
一些研究人員采用了結合不同算法快速收斂性和魯棒性的混合算法。例如,鄒等人[11]開發了一種針對包含緊急任務插入的DFJSP的增強型混合GA(HFGA),顯著加快了選擇、交叉、變異和局部搜索等關鍵遺傳操作的執行速度。同樣,唐等人[12]引入了一種基于混合教學學習的優化(HTLBO)算法,該算法結合了三層編碼方案和多種種群初始化策略,旨在提高解決方案質量和收斂速度。
設計一個有效的PDR系統是一項具有挑戰性的任務,需要豐富的領域專業知識,其性能往往有限。相比之下,強化學習(RL)不需要任何預先收集的數據或先驗知識;它通過與環境的持續交互高效學習,從而解決現實世界生產中遇到的各種動態事件。然而,傳統的基于RL的調度方法通常依賴于大量的試錯,并且計算復雜度較高。此外,通過RL方法訓練的調度策略通常基于DFJSP的固定規則設計,使其難以適應復雜的調度環境,限制了其實際應用性。
為了解決上述問題,本文提出了一種基于DRL和GNN的端到端方法,用于生成考慮AGV的DFJSP的高質量調度策略。為了有效捕捉動態車間信息,我們構建了一個包含時間和AGV相關因素的擴展三維析取圖。此外,我們基于DRL和MDP設計了一個優化模型來解決這個問題。在我們的方法中,DRL框架的兩個關鍵組成部分是圖嵌入網絡和噪聲網絡。
GNN是一種用于處理圖結構數據的DRL模型。通過處理擴展的三維析取圖,它可以捕捉車間的資源狀態。在噪聲網絡中,隨機性被嵌入到DRL策略的參數本身中,使模型能夠自主探索解決方案空間。這種內化的隨機性使策略能夠開發出特定于問題的探索策略,消除了手動設計探索機制的需要。
以下總結了我們工作的主要貢獻。
•基于MDP的調度優化:我們構建了一個MDP模型來優化加工機和AGV的調度,同時考慮了機器故障等動態事件。所提出模型的一個關鍵創新在于它能夠同時捕捉任務分配、機器容量和利用率、AGV時間約束以及空間和時間調度模式。
•AGV充電站策略:我們提出了一種基于空間多樣性的AGV充電站選擇策略,綜合考慮了行駛距離、能耗、等待時間和AGV的空間分布等因素。
•基于圖的DRL調度框架:使用3D析取圖和圖嵌入開發了一個深度強化學習框架,以實現動態環境中AGV和機器的自適應和協調調度。
本文的其余部分組織如下。第2節回顧了靈活制造系統中動態調度的相關研究。第3節介紹了所提出的AGV充電站復合選擇策略算法、擴展析取圖和其他相關概念。第4節介紹了考慮AGV的DFJSP的數學模型。第5節描述了基于DRL的調度算法模型。第6節展示了實驗設置和結果。最后,第7節提供了結論并概述了未來研究的方向。