www.黄色,国产va在线播放,最新中文字幕免费观看

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

基于最大相關熵的多元智能體深度強化學習中的值分解方法

《Pattern Recognition》：Value decomposition with maximum correntropy for multi-agent deep reinforcement learning

【字體：大中小】 時間：2026年03月03日 來源：Pattern Recognition 7.6

編輯推薦：

　　價值基多智能體深度強化學習通過單邊魯棒回歸解決非單調價值分解問題，利用最大相關散度準則抑制低質量聯合動作影響，在多個基準環境中驗證了其泛化性和自適應優勢。

Kai Liu|張天賢|孔凌江|徐向良

中國電子科技大學信息與通信工程學院，成都，611731，四川省，中華人民共和國

摘要

基于價值的多智能體深度強化學習（MARL）在解決分布式協作任務方面取得了顯著進展。該領域的一個緊迫挑戰是非單調價值分解問題（NVDP）。大多數現有方法傾向于過度依賴最優聯合動作的估計，這限制了它們在訓練過程中的適應性。為了解決這一限制，我們提出了MCMIX，一種將NVDP重新表述為單邊魯棒回歸問題的新方法。MCMIX不追求動態且不可行的最優聯合動作，而是專注于有效識別和利用多個高質量聯合動作。為此，它采用最大互信息準則作為成本函數，該準則降低了低質量聯合動作的影響，同時放大了高質量聯合動作的貢獻。在一步矩陣游戲、倉庫、捕食者-獵物和StarCraft多智能體挑戰等任務上的綜合實驗表明，MCMIX在多種環境中使用固定的核帶寬時，始終表現出優于或可比的性能。這大大減少了針對特定環境的超參數調整需求，并突顯了MCMIX在獎勵結構不確定或非平穩的實際應用中的潛力。

引言

近年來，多智能體深度強化學習（MARL）在交通[1]、任務調度[2]和機器人控制[3]等領域得到了廣泛應用。然而，當智能體的觀測信息有限且獲得的是個體獎勵時，它們往往表現出獨立和自私的行為，這使得實現群體智能成為一個核心挑戰。分散式部分可觀測馬爾可夫決策過程（Dec-POMDP）[4]是建模協作多智能體任務的最成熟框架之一，在該框架中，所有智能體共享一個共同的團隊獎勵。盡管這種表述在概念上直觀且適用于實際應用，但它也大大增加了算法設計的復雜性。為了學習有效的協作策略，MARL智能體必須從共享的團隊獎勵中正確推斷出各自的貢獻——這一問題被稱為價值分解，已成為MARL領域的核心課題[5]、[6]。

VDN[7]是最早嘗試解決價值分解問題的方法之一，它將聯合動作價值分解為各個智能體效用的簡單總和。QMIX[8]通過使用超網絡[9]將這種加性分解擴展為單調形式。QTRAN[10]進一步將價值分解推廣到非單調任務，從而提出了非單調價值分解問題（NVDP）。加權QMIX[11]引入了一種自適應加權方案，以提高QMIX對NVDP的表示能力。RESQ[12]通過引入負殘差項來替代QTRAN中的不等式約束，從而提高了實驗性能。OVI[13]提出了一種樂觀指導價值函數和全局指導約束，通過提供更準確的最優聯合動作近似值來指導分解價值函數的學習。

然而，現有的非單調價值分解算法仍然過度依賴最優聯合動作的估計，并且在訓練過程中表現出有限的適應性。1) 由于窮舉最優聯合動作是不可行的，大多數方法通過組合貪婪的個體動作來近似它，這不可避免地引入了近似誤差。2) 此外，基于個體-全局最大（IGM）原理的算法往往過分強調最優聯合動作，而忽略了優化過程的動態性質。在訓練過程中，隨著貝爾曼方程的更新，最優聯合動作可能會隨時間變化。過度關注這些瞬態最優解可能會忽略其他高質量的聯合動作，從而導致學習效率低下。因此，有必要超越對最優聯合動作的過度依賴，開發更適應NVDP的解決方案——MCMIX正是為了解決這一限制而設計的。

MCMIX的核心思想是將價值分解問題重新解釋為一個回歸任務，在該任務中，混合函數（MF，Q_tot）被訓練來近似圣聯合價值函數（JVF，Q_jt）。在非單調價值分解問題中，這種匹配關系變得不匹配，因為MF的表示能力無法完全捕捉JVF的變化。為了解決這個問題，MCMIX僅選擇性地擬合高于MF的較高聯合動作值，而將低于MF的值視為異常值。因此，問題被重新表述為單邊回歸問題。被丟棄的值在相反的一側充當異常值，自然形成了魯棒回歸的表述。直觀地說，這個過程類似于在回歸中僅擬合數據分布的上邊界（或“邊緣”），而不是整個數據集——因此稱為單邊魯棒回歸。這種表述為解決NVDP提供了新的視角，并構成了MCMIX的理論基礎。

具體來說，我們使用標準的均方誤差（MSE）損失（圖1中的綠線）來計算高質量聯合動作的梯度，而低質量聯合動作則通過最大互信息準則（MCC）[14]、[15]損失（圖1中的藍線梯度）來處理。這種選擇性的梯度計算有效地減輕了低質量聯合動作的負面影響，并提高了學習過程的總體穩定性。

進一步的數學分析表明，MCMIX的性能對環境變化具有魯棒性。在一步矩陣游戲、倉庫、捕食者-獵物和StarCraft多智能體挑戰等任務上的實驗表明，MCMIX在多種環境中使用單一固定的核帶寬時，始終優于或與基線方法表現相當。與基線方法相比，這顯著減少了廣泛的超參數調整需求。

本文的其余部分組織如下。第2節回顧了價值分解的相關工作。第3節提供了關于NVDP和互信息的背景知識。第4節從魯棒回歸的角度提出了一個新的價值分解框架，并詳細介紹了所提出的算法。第5節報告了在多個基準測試上的實驗結果，以實證驗證MCMIX的有效性和優越性。最后，第6節總結了本文并概述了未來研究的潛在方向。MCMIX的源代碼可以在https://github.com/LIUKAI0417/MCMIX處獲取。

價值分解算法大致可以分為兩個研究方向。第一個方向專注于構建表達能力強的MF，而第二個方向旨在設計保持MF與JVF之間適當關系的機制。VDN[7]引入了加性MF結構，QMIX[8]使用超網絡提出了單調MF。然而，它們的表示能力有限，不足以處理非單調收益。為了解決這一限制，QPLEX[16]構建了一個

MARL表述

協作多智能體任務通常被建模為Dec-POMDP，其正式定義為元組

(N, S, O, A, P, R, γ)

。這里，

N = 1, . . . . . . . . . . . . . . . . . . .

表示一組有限的智能體。

S

表示全局狀態集，描述了環境的全局配置，這是單個智能體無法直接觀測到的。每個智能體從其自己的觀測空間

O_{i}

接收觀測值，聯合觀測空間定義為

O = O_{1} \times O_{2} \times ? \times O_{N}

。類似地，聯合動作空間為

A = A_{1} \times A_{2} \times ? \times A_{N}

方法

在本節中，我們提出了一種新的價值分解方法MCMIX，該方法將互信息機制擴展到MARL領域，用于抑制異常值。關鍵思想是迭代地過濾掉低質量的聯合動作，同時增強對高質量聯合動作的學習。所提出方法的總體架構如圖3所示。

實驗

在本節中，我們通過一系列基準環境對所提出的MCMIX算法的有效性和優越性進行了實證評估。我們首先評估了具有非單調收益結構的環境（包括OMG（表2）、倉庫和離散捕食者-獵物任務）上的性能。隨后，我們在MARL社區廣泛采用的SMAC基準測試上評估了MCMIX。為了確保所有算法的公平性，在OMG中隨機種子被固定為2

結論

在本文中，我們從單邊魯棒回歸問題的角度提出了對NVDP的新見解。基于這一見解，我們首次嘗試通過將MCC納入基于價值的多智能體強化學習來解決NVDP問題。為此，我們提出了一種新算法MCMIX，并提供了嚴格的理論分析，以證明其魯棒性、可擴展性和泛化優勢。在包括OMG在內的多種環境中的廣泛實驗表明

CRediT作者貢獻聲明

Kai Liu：概念化、方法論、軟件、寫作、繪圖。Tianxian Zhang：監督、審閱。Lingjiang Kong：監督、基礎工作。Xiangliang Xu：審閱、編輯。

CRediT作者貢獻聲明

Kai Liu：寫作——審閱與編輯、撰寫——初稿、可視化、軟件、資源、方法論、調查、形式分析、數據整理、概念化。Tianxian Zhang：寫作——審閱與編輯、監督、資源、項目管理、資金獲取。Lingjiang Kong：監督、項目管理、資金獲取。Xiangliang Xu：寫作——審閱與編輯、驗證、數據整理。

利益沖突聲明

作者聲明他們沒有已知的財務利益或個人關系可能影響本文報告的工作。

致謝

本工作得到了千源實驗室的支持。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號

摘要

引言

相關研究

MARL表述

方法

實驗

結論

CRediT作者貢獻聲明

CRediT作者貢獻聲明

利益沖突聲明

致謝

熱點排行

新聞專題