一種基于狀態自適應權重調整和探索路徑采樣的新穎多智能體強化學習方法
《Applied Soft Computing》:A novel multi-agent reinforcement learning approach based on state adaptive weighting and exploration path sampling
【字體:
大
中
小
】
時間:2026年03月03日
來源:Applied Soft Computing 6.6
編輯推薦:
多智能體強化學習中的動態權重分配與探索策略研究,提出SAW通過動態狀態權重網絡優化獎勵函數,EPS采用好奇心驅動、路徑多樣性追蹤和自適應噪聲機制提升探索效率,在多個基準環境中驗證其加速收斂和穩定控制效果。
王一晨|鄭帥|楊澤|周欣
西安交通大學軟件工程學院,中國陜西省西安市710049
摘要
在多智能體強化學習(MARL)中,當前狀態與獎勵之間的關系對模型的性能至關重要。良好的權重調整能夠帶來更合理的獎勵,從而提升所有智能體的空間探索效率和穩定控制。本文提出了狀態自適應加權(SAW)和探索路徑采樣(EPS)兩種強大的設計方法來實現狀態權重的調整。SAW利用動態狀態加權網絡在訓練過程中優先考慮信息豐富和決策關鍵的狀態,使智能體能夠專注于狀態空間中與任務相關的區域,從而提高整體采樣效率。EPS引入了一種多方面的探索策略,包括三個部分:一個基于好奇心的模塊,通過預測誤差生成內在獎勵;一個路徑多樣性追蹤器,通過訪問獎勵鼓勵智能體訪問新狀態;以及一個自適應噪聲機制,根據環境的新穎性調節探索強度。本文通過一系列實驗驗證了這些方法在提升學習速度和探索質量方面的效果。我們的工作為多智能體系統中的效率和穩定性問題提供了有效的解決方案。
引言
多智能體強化學習(MARL)作為強化學習(RL)的一個重要領域,近年來由于其廣泛的應用場景(如游戲、機器人控制、交通管理等)而受到越來越多的關注。其核心目標是理解多個智能體如何在共享環境中相互作用、協作并完成任務。在傳統的單智能體RL中,智能體通常獨立地與環境互動,通過獎勵信號學習最優策略。然而,在多智能體環境中,智能體不僅需要在動態環境中做出決策,還需考慮其他智能體的行為和策略以優化整體性能。
MARL中的一個關鍵挑戰是探索效率,尤其是在獎勵稀疏的環境中,智能體僅依靠隨機探索難以獲得有意義的反饋。多智能體系統的非平穩性進一步加劇了這一問題:隨著多個智能體同時更新策略,環境不斷變化,導致先前學到的策略變得過時。因此,需要更高效的探索機制來應對聯合行動空間的復雜性。
近年來流行的MARL算法包括基于近端策略優化(PPO)的方法[5]和基于軟演員-評論家(SAC)的方法[6]。這些方法側重于策略優化和行動空間探索。盡管這些方法在探索效率上取得了顯著提升,但固定的權重策略往往無法實現滿意的探索速度。
本文提出了兩種特定的技術來提高MARL訓練任務的收斂速度,即狀態自適應加權(SAW)和探索路徑采樣(EPS)。SAW通過引入一個獨立的狀態加權網絡來解決學習效率和注意力分配問題,該網絡能夠在訓練過程中識別不同狀態的重要性,并動態地為復雜、決策關鍵或信息豐富的狀態分配更高的權重,類似于人類關注關鍵信息的方式。通過打破對所有狀態平等對待的假設,SAW在狀態重要性差異較大的環境中特別有效。
另一方面,EPS專注于在獎勵稀疏的環境中提高探索效率并防止收斂到局部最優解。它建立了一個多層次的探索獎勵系統:好奇心模塊通過預測誤差驅動探索,將模型差異轉化為內在獎勵;路徑多樣性追蹤器通過跟蹤狀態訪問頻率來激勵訪問新狀態;自適應探索噪聲模塊根據環境的新穎性調整探索噪聲水平。
通過SAW和EPS,這些組件能夠在獎勵稀疏的環境中持續發現有價值的區域,其中SAW決定了學習的內容,EPS改進了學習方法,它們的結合有助于MARL算法更快地收斂。
為了更好地整合SAW和EPS,本文提出了一個基于最新技術異構智能體軟演員評論家(HASAC)的新型MARL框架。整體架構如圖1所示。通過一系列基準實驗(如Petting Zoo、MAMuJoCo等),本文證明了它們相對于現有先進方法的優越性。主要貢獻如下:
•提出SAW,一種動態獎勵加權網絡,能夠有效分配注意力。
•提出EPS,一種隨機探索采樣機制,用于防止智能體陷入局部最優解。
•提出一個新型的MARL框架,并在多個基準實驗中驗證了其有效性。
相關工作
近年來,基于智能體間交互模式的MARL研究在三種不同類型任務中取得了顯著進展,包括合作型[7]、競爭型[8]和混合型[9]。在合作型MARL中,智能體在共同環境中共享目標,常見于多無人機(UAV)控制系統[10]、[11]、交通信號燈協調控制[12]、[13]和物流配送任務[14]等場景。在競爭型MARL中,多個智能體之間存在競爭關系。
方法
所提出的框架包括兩個核心組件:SAW模塊和EPS模塊。這兩個組件協同工作以增強學習過程的收斂性。具體來說,SAW通過提供更具信息性的目標信號來細化學習目標,而EPS則加速策略探索和優化。
實驗
為了驗證SAW和EPS方法的有效性,我們在多種MARL環境中對這些方法進行了評估,包括MAMuJoCo和PettingZoo基準測試。在實驗中,我們將SAW和EPS集成到HASAC框架中,并將其性能與HASAC基線進行比較。此外,我們還與幾種先進的MARL算法(如HAPPO和MAPPO)進行了對比,以評估我們方法在合作型和部分競爭型環境下的相對性能。
結論
本文提出了一種新穎且穩健的MARL框架,該框架基于兩項關鍵創新:SAW機制和EPS策略。主要目標是解決復雜MARL任務中常見的收斂緩慢和性能波動問題,尤其是那些包含連續和離散行動空間的任務。
所提出的框架通過確保更穩定和高效的學習動態證明了其有效性。
作者貢獻聲明
王一晨:撰寫——原始草稿、方法論、形式分析、數據整理、概念構建。鄭帥:撰寫——審稿與編輯、概念構建。楊澤:方法論、形式分析、數據整理、概念構建。周欣:可視化、驗證。
利益沖突聲明
作者聲明沒有已知的財務利益沖突或個人關系可能影響本文所述的工作。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號