亚洲区中文字幕,中文字幕在线观看亚洲,日韩激烈无码

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

通過深度強化學習實現考慮自動引導車輛運輸的靈活作業車間動態調度

《Future Generation Computer Systems》：Dynamic scheduling of flexible job-shop considering automatic guided vehicle transportation via deep reinforcement learning

【字體：大中小】 時間：2026年03月01日 來源：Future Generation Computer Systems 6.2

編輯推薦：

　　AGV運輸優化與動態柔性作業車間調度結合，提出GNN-DRL框架，構建三維圖模型整合時空與AGV狀態，設計空間多樣性充電策略，基于MDP和D3QN實現動態調度，仿真驗證收斂快、響應及時和方案多樣性優勢。

任富杰|劉海斌|黃赫|曹陽

北京工業大學機械與能源工程學院，北京，100124，中國

摘要

隨著自動化和智能制造技術的不斷進步，自動引導車輛（AGVs）因其靈活性和物料運輸效率而在制造系統中得到廣泛應用。近年來，人們越來越關注將強化學習方法應用于解決帶有AGV運輸的動態靈活作業車間調度問題（DFJSP）。然而，大多數現有方法難以處理動態事件，并且經常忽略AGV的充電和放電狀態。為了解決這一研究空白，本文提出了一種調度優化框架，該框架將圖神經網絡（GNN）與深度強化學習（DRL）相結合，以應對在機器故障和緊急任務插入等動態條件下的DFJSP問題。具體而言，構建了一個包含時間和AGV狀態信息的三維析取圖模型，以簡化動態車間中AGV和加工機的集成調度。GNN用于有效提取調度狀態特征，同時捕捉機器故障和緊急任務插入等事件引入的不確定性。此外，為了提高AGV充電效率，基于空間多樣性提出了一種復合AGV充電站選擇策略。最后，將考慮AGV的DFJSP問題形式化為馬爾可夫決策過程（MDP），并開發了一個結合圖嵌入網絡和對抗性雙深度Q網絡（D3QN）的學習模型進行策略優化。廣泛的仿真實驗表明，所提出的方法在收斂速度、調度多樣性和響應及時性方面表現出色，驗證了其在復雜動態制造環境中的實用性和魯棒性。

引言

生產調度是企業制造過程中的一個核心要素，直接影響制造成本和生產效率。生產調度問題主要由三個部分組成：約束條件、調度目標和調度計劃[1]。作業車間調度問題（FJSP）是生產調度的重要組成部分，它是一個NP難組合優化問題[2]。FJSP克服了資源唯一性的約束，幾十年來一直受到廣泛研究，使其成為該領域研究最多的問題之一。隨著調度問題變得越來越復雜和不確定，迫切需要開發有效的方法來解決包含運輸約束的靈活作業車間調度問題。

由于AGV具有高靈活性、便利性和強大的端到端能力，它們已被廣泛應用于靈活制造系統中的物料處理[3]。許多學者研究了帶有AGV運輸約束的生產調度問題。然而，一方面，車間內的AGV數量足以滿足運輸需求[4]；另一方面，尚未考慮AGV的充電和放電等因素[5]。由于AGV分配過程對于加快物流速度、縮短生產周期和提高車間物流智能化至關重要，實際生產中經常發生動態事件。因此，將運輸資源約束整合到動態靈活作業車間調度中在實踐上具有重要意義，同時也具有理論挑戰性。

在學術界，已經廣泛研究了具有已知任務信息的靜態調度，主要使用數學編程等方法來解決問題[6]。然而，在現代生產車間中，調度過程經常遇到各種問題，如機器故障。在復雜的現代制造環境中，獲取所有任務信息可能并不現實。

在解決動態調度問題時，最常見的方法是元啟發式算法和預測性動態重構（PDR）。PDR的優勢在于它能夠在動態事件發生時立即做出反應，但難以實現全局最優[7]。另一方面，元啟發式算法通過將動態調度問題分解為一系列靜態子問題來解決，從而產生更高質量的調度方案。蟻群優化（ACO）[8]、遺傳算法（GA）[9]和粒子群優化（PSO）[10]等算法已在此領域得到廣泛應用。這些算法在一定程度上改善了動態調度，但由于算法設計中存在隨機因素，解決方案的質量可能不穩定。此外，它們難以處理計劃頻繁更新的環境。

一些研究人員采用了結合不同算法快速收斂性和魯棒性的混合算法。例如，鄒等人[11]開發了一種針對包含緊急任務插入的DFJSP的增強型混合GA（HFGA），顯著加快了選擇、交叉、變異和局部搜索等關鍵遺傳操作的執行速度。同樣，唐等人[12]引入了一種基于混合教學學習的優化（HTLBO）算法，該算法結合了三層編碼方案和多種種群初始化策略，旨在提高解決方案質量和收斂速度。

設計一個有效的PDR系統是一項具有挑戰性的任務，需要豐富的領域專業知識，其性能往往有限。相比之下，強化學習（RL）不需要任何預先收集的數據或先驗知識；它通過與環境的持續交互高效學習，從而解決現實世界生產中遇到的各種動態事件。然而，傳統的基于RL的調度方法通常依賴于大量的試錯，并且計算復雜度較高。此外，通過RL方法訓練的調度策略通常基于DFJSP的固定規則設計，使其難以適應復雜的調度環境，限制了其實際應用性。

為了解決上述問題，本文提出了一種基于DRL和GNN的端到端方法，用于生成考慮AGV的DFJSP的高質量調度策略。為了有效捕捉動態車間信息，我們構建了一個包含時間和AGV相關因素的擴展三維析取圖。此外，我們基于DRL和MDP設計了一個優化模型來解決這個問題。在我們的方法中，DRL框架的兩個關鍵組成部分是圖嵌入網絡和噪聲網絡。

GNN是一種用于處理圖結構數據的DRL模型。通過處理擴展的三維析取圖，它可以捕捉車間的資源狀態。在噪聲網絡中，隨機性被嵌入到DRL策略的參數本身中，使模型能夠自主探索解決方案空間。這種內化的隨機性使策略能夠開發出特定于問題的探索策略，消除了手動設計探索機制的需要。

以下總結了我們工作的主要貢獻。

•

基于MDP的調度優化：我們構建了一個MDP模型來優化加工機和AGV的調度，同時考慮了機器故障等動態事件。所提出模型的一個關鍵創新在于它能夠同時捕捉任務分配、機器容量和利用率、AGV時間約束以及空間和時間調度模式。

•

AGV充電站策略：我們提出了一種基于空間多樣性的AGV充電站選擇策略，綜合考慮了行駛距離、能耗、等待時間和AGV的空間分布等因素。

•

基于圖的DRL調度框架：使用3D析取圖和圖嵌入開發了一個深度強化學習框架，以實現動態環境中AGV和機器的自適應和協調調度。

本文的其余部分組織如下。第2節回顧了靈活制造系統中動態調度的相關研究。第3節介紹了所提出的AGV充電站復合選擇策略算法、擴展析取圖和其他相關概念。第4節介紹了考慮AGV的DFJSP的數學模型。第5節描述了基于DRL的調度算法模型。第6節展示了實驗設置和結果。最后，第7節提供了結論并概述了未來研究的方向。

問題建模和圖表示

本節介紹了AGV集成動態靈活作業車間調度問題的建模，包括能源和電池模型、復合充電策略以及擴展的三維析取圖表示。

問題表述

本研究旨在優化帶有AGV運輸的DFJSP，同時考慮AGV充電和放電、機器故障和緊急任務插入等動態事件。目標是最大化能源利用率并最小化所有任務的總延遲。

建模框架

本研究利用D3QN算法對調度模型進行無監督訓練。首先，在具有多種約束和干擾的生產環境中，構建了一個擴展的三維析取圖作為輸入。提取GNN特征，并通過訓練有素的決策模型生成最優調度規則，從而實現有效的任務調度。使用DRL解決調度問題的一個關鍵部分是構建問題框架

實驗和結果分析

在本節中，我們首先介紹了所提出模型的詳細訓練過程和參數設置。隨后，模擬了一個類似于現實世界制造場景的靈活作業車間環境，以全面評估所提出調度方法的性能。評估標準包括調度效率、不同任務規模下的機器利用率以及其他相關性能指標。此外，所提出的方法還

結論

本文提出了一種改進的D3QN，用于解決帶有AGV運輸的DFJSP問題。首先，開發了一個三維操作-機器-AGV析取圖，并使用GNN提取有效捕捉車間狀態的特征。其次，考慮到AGV充電策略，提出了一種基于空間多樣性的復合AGV充電站選擇方法。此外，還構建了一個MDP模型來優化相互依賴的

CRediT作者貢獻聲明

任富杰：撰寫 – 審稿與編輯、方法論、調查、概念化。劉海斌：可視化、驗證、項目管理、資金獲取、形式分析。黃赫：撰寫 – 原始草稿、方法論、數據管理。曹陽：驗證、形式分析。

利益沖突聲明

作者聲明他們沒有已知的財務利益或個人關系可能影響本文報告的工作。

任富杰正在北京工業大學攻讀計算機科學與技術博士學位。他于2018年獲得北京工業大學計算機科學與技術碩士學位。他的主要研究興趣包括聯邦學習、深度學習和隱私保護。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號

摘要

引言

相關研究

相關工作