jizz麻豆,欧美丰满少妇猛烈进入A片蜜桃,91资源在线

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

結合概念嵌入的分層深度強化學習框架

《Neural Networks》：Framework for Hierarchical Deep Reinforcement Learning with Conceptual Embedding

【字體：大中小】 時間：2026年02月28日 來源：Neural Networks 6.3

編輯推薦：

　　針對深度強化學習（DRL）在高維狀態-動作空間中的探索效率問題，提出一種基于概念嵌入的層次化DRL框架，通過解耦識別與決策模塊、引入先驗知識約束，降低探索空間復雜度，并驗證了其相較于傳統HDRL方法更穩定的訓練效果。

戴英龍|易志毅|趙強富|陳明|王國軍

湖南師范大學信息科學與工程學院，長沙，410081，中國

摘要

當組合狀態-動作空間變得過大時，深度強化學習（DRL）面臨挑戰。分層DRL（HDRL）提供了一種潛在的解決方法；然而，設計一個高效的分層結構仍然具有挑戰性。為了解決這個問題，我們提出了一個具有概念嵌入的通用HDRL框架，以限制探索空間。據我們所知，這是第一個明確通過分層策略結構中的概念嵌入來形式化識別-決策解耦的框架。它進一步闡明了抽象狀態空間和目標空間之間的內在關系。這導致了一個透明的推理流程。它使得結構化推理和先驗知識的整合成為可能。與不受限制的試錯策略相比，高級抽象概念預計將指導策略學習過程并提高探索效率。我們定義并分析了在該框架下探索空間的復雜性，并通過實驗驗證了其有效性。

引言

深度強化學習（DRL）利用深度學習技術高效地識別高維環境數據并近似復雜的決策函數（Wang等人，2024年）。自從Mnih等人（2015年）提出Deep Q-Network（DQN）并在Atari游戲中實現了人類水平的性能以來，DRL已經發展到越來越復雜的任務，如Go（Silver等人，2017年）、機器人操控（Levine等人，2016年）和StarCraft（Vinyals等人，2019年）。隨著狀態-動作空間的擴大，DRL經常面臨與探索效率和訓練穩定性相關的挑戰。分層RL（HRL）通過在不同時間抽象層次上結構化代理的決策過程，提供了一種合理的解決可擴展性挑戰的方法（Eppe等人，2022年）。這種方法將復雜任務分解為更簡單的子任務，使代理能夠有效地解決具有挑戰性的問題（Pateria等人，2021年）。特別是，HRL通過將隱藏層結構化為不同的抽象層次，為DRL的發展帶來了巨大潛力。這種方法提供了多種好處，包括在高抽象層次上探索宏觀策略、用更少的嘗試進行高效學習，以及獲得可應用于不同任務的可轉移的微觀技能（Eysenbach等人，2019年）。

Sutton等人（1999年）提出的選項公式化框架中，將選項視為包含一系列動作的子策略，是一個突出的HRL框架。在選項公式化框架中，上層策略（稱為policy-over-options）在完成前一個選項后從預定義的選項集中選擇一個選項。通常，選項可以被視為標準RL框架中的動作。然而，由于選項的持續時間不同，Sutton等人將問題擴展到了半馬爾可夫決策過程（semi-MDPs）。Bacon等人（2017年）進一步擴展了策略梯度定理，以納入選項公式化，并引入了Option-Critic架構。該架構利用深度學習技術端到端地學習選項和policy-over-options，而不依賴于子目標的先驗知識或額外獎勵。然而，端到端學習架構可能會遇到退化情況，例如一個選項解決了整個任務，或者一個選項被簡化為單個動作。此外，自動生成不受限制的目標可能會導致目標表示空間不穩定，因為目標的表示會隨著下層策略的動作空間的變化而頻繁變化。因此，追求完全自主的學習可能不是最終的解決方案。在許多復雜任務中（Kulkarni等人，2016年；Tessler等人，2017年），結合先驗知識對于增強代理的學習過程非常有益。

雖然選項框架通過定義可重用的動作原語來關注時間抽象，但它對如何表示或實現抽象目標提供的指導有限。Feudal RL（FRL）由Dayan和Hinton（1992年）引入，是另一個直觀且突出的分層框架，強調分層目標分解。他們受到封建領地分層方面的啟發，其中上層決策者將特定任務委托給下層決策者。這種方法遵循自上而下的目標解耦，使下層決策者能夠專注于其直接上級提供的獎勵。FRL的兩個關鍵原則包括獎勵隱藏和信息隱藏。受到FRL框架的啟發，Vezhnevets等人（2017年）引入了FeUdal Networks（FuN），它包括一個完全可微分的神經網絡。該架構包括一個稱為Manager的上層模塊，負責在較低的時間分辨率下設置抽象目標，以及一個稱為Worker的下層模塊，該模塊遵循這些目標并執行原始動作。Worker同時受到環境獎勵和內在獎勵的指導。他們展示了方向性目標對于實現最佳模型性能的關鍵重要性。學習目標嵌入是一項具有挑戰性的任務。

此外，針對不同應用的RL中的分層框架，如導航（Feng等人，2025年；Zhu和Hayashibe，2023年）、機器人操控（Yang等人，2022年）、社區能源交易（Yan等人，2022年）、細胞遷移檢測（Wang等人，2022年）和臨床輔助（Yun等人，2022年），可以使用各種替代方法進行開發。這些領域通常呈現出不同的挑戰。例如，自主導航需要在高維觀察和稀疏獎勵下進行高效探索，機器人技術需要可解釋的分層規劃以實現安全和靈活的控制，而醫療決策則受益于模塊化推理和先驗專家知識的整合。已經探索了分層方法來提高DRL的可擴展性。然而，獲得對分層DRL（HDRL）的統一理解仍然是一個挑戰。該領域仍然缺乏一個具有DL視角的清晰HDRL框架。所提出的分層算法的實際應用極其有限且效率低下。

在這里，我們引入了一個清晰的HDRL框架，為多個層次的狀態空間抽象和動作空間抽象提供了通用的視角。在我們提出的方法中，識別和決策功能與DRL策略解耦，并作為兩個功能模塊實現。識別模塊處理高維觀察數據以推斷環境的潛在狀態，并通過在不同層次上聚類相似特征來發展分層抽象。決策模塊通過基于這些潛在狀態規劃動作并將在相應抽象層次上將總體目標分解為子目標來形成分層決策框架。此外，我們結合了概念嵌入來引入先驗約束。嵌入先驗知識的主要優勢是它減少了HDRL探索空間的復雜性。此外，它可以提高深度模型的樣本效率和泛化能力，減輕與過度靈活性相關的問題。

所提出的框架旨在提高HDRL的可解釋性和效率。本研究的主要貢獻總結如下：

1.

我們提出了一個HDRL框架，明確地將識別和決策功能與代理的策略解耦，并通過概念嵌入來約束狀態和目標空間。

2.

我們引入了量化探索空間復雜性的正式定義和原則，提供了一個理論框架來分析和比較不同的HDRL結構。

3.

通過結合概念嵌入技術，該框架使得將領域先驗知識注入學習過程成為可能，從而提高訓練效率并提高可解釋性。這在以前的HDRL研究中較少被探索，實現了靈活性與結構化抽象的平衡。

4.

分析和實驗驗證了所提出的框架。結果表明，與傳統缺乏先驗知識約束的HDRL算法相比，所提出的方法實現了更穩定和高效的學習。

本研究的其余部分組織如下。第2節簡要回顧了相關的分層方法。第3節描述了HDRL框架并分析了探索復雜性。第4節展示了一些實驗結果，驗證了分層架構的優勢。第5節討論了分層方法。第6節總結了研究。

章節片段

初步介紹

與依賴于MDP公式化的傳統RL不同，HRL將問題領域擴展到了半MDPs，以適應持續時間可變的動作。DRL通過處理高維輸入和促進分層策略的端到端訓練，對HRL做出了顯著貢獻。

實驗設置

我們選擇了MiniGrid-DoorKey（Chevalier-Boisvert等人，2023年）環境作為一個易于理解的例子來說明所提出框架的實現。隨機生成的環境大小分別為8×8和16×16，如圖2所示。在網格世界中，代理的任務是導航到一個鑰匙，拾起它，用它來解鎖一扇門，最后到達一個目標柱以獲得正面獎勵。這個環境是部分可觀察的

討論

我們認為分層方法可以有效降低DRL探索的復雜性。不幸的是，現有的HDRL算法在實驗中產生了不令人滿意的結果。分層方法提出了重要的未解決的問題，例如HDRL算法是否能夠有效地學習有用的分層抽象。在這項研究中，我們使用先驗知識來約束分層架構的抽象并取得了良好的性能。

結論

DRL方法在探索高維復雜環境中的策略方面具有巨大潛力。然而，由于組合狀態-動作空間（也稱為探索空間）過大，現有的DRL方法遇到了重大挑戰。我們觀察到，當探索空間超出一定范圍時，這些方法無法發現有效的策略。為了緩解這個問題并減少探索空間，我們提出了一種新的分層DRL

CRediT作者貢獻聲明

戴英龍：撰寫——原始草稿，軟件，方法論，資金獲取，概念化。易志毅：撰寫——審閱與編輯，軟件，方法論。趙強富：撰寫——審閱與編輯，驗證，監督。陳明：撰寫——審閱與編輯，資金獲取。王國軍：撰寫——審閱與編輯，監督。

利益沖突聲明

戴英龍報告得到了中國國家自然科學基金的支持。王國軍報告得到了中國國家自然科學基金的支持。戴英龍報告得到了湖南省重點研發計劃的支持。戴英龍報告得到了中國博士后科學基金的支持。戴英龍報告得到了中國國家留學基金委的支持。陳明

致謝

這項工作部分得到了中國國家自然科學基金（資助編號62306110和62372121）、湖南省重點研發計劃（資助編號2024AQ2020）、中國博士后科學基金（資助編號2021M693976）、中國國家留學基金委（資助編號202306720022）以及湖南省自然科學基金（資助編號2023JJ30411）的支持。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號

摘要

引言