国产熟女一区二区三区五月婷 ,丰满熟女人妻中出系列,爆乳一区二区

首頁今日動態(tài) 人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

基于GRPO-MDP框架的多模態(tài)擴散策略與分組相對策略優(yōu)化增強無人機動態(tài)路徑規(guī)劃

《Alexandria Engineering Journal》：Enhancing UAV path planning with diffusion models and group relative policy optimization

【字體：大中小】 時間：2026年03月02日 來源：Alexandria Engineering Journal 6.8

編輯推薦：

　　本文針對動態(tài)環(huán)境中無人機(UAV)自主路徑規(guī)劃的不確定性問題，提出了結合多模態(tài)擴散策略與分組相對策略優(yōu)化(GRPO-MDP)的新框架。該研究利用去噪擴散概率模型(DDPM)生成多樣化的動作樣本，通過組內(nèi)軌跡比較構建優(yōu)勢函數(shù)，并引入后見軌跡重標定機制與基于控制屏障函數(shù)(CBF)的安全濾波器。實驗結果表明，該框架在動態(tài)環(huán)境中，在成功率、路徑效率與安全性方面均優(yōu)于現(xiàn)有方法，為無人機自主導航提供了更可靠高效的解決方案。

在無人機（UAV）日益廣泛地應用于農(nóng)業(yè)巡檢、環(huán)境監(jiān)測、應急救援等諸多領域的當下，如何讓這些“空中精靈”在復雜、動態(tài)的環(huán)境中自主、安全、高效地飛行，已成為一個亟待解決的關鍵難題。傳統(tǒng)的路徑規(guī)劃方法，如基于采樣的RRT（快速隨機探索樹）或基于優(yōu)化的方法，往往計算開銷大，難以應對實時變化的環(huán)境，且生成的路徑可能不夠平滑。近年來，深度強化學習（DRL）為無人機賦予了從交互中“學習”飛行策略的能力，展現(xiàn)出巨大潛力。然而，現(xiàn)有DRL方法通常存在兩大瓶頸：一是策略往往局限于單一模式，當面對一個障礙物時，向左繞和向右繞可能是等效的，但傳統(tǒng)策略只能學會其中一種，限制了探索的靈活性與策略的表達能力；二是學習過程嚴重依賴于稀疏的成功獎勵信號，大量的失敗經(jīng)驗被簡單拋棄，未能轉化為有效的學習信號，導致樣本效率低下。此外，確保無人機在高速飛行中絕不與障礙物相撞的“硬安全”約束，也往往難以得到嚴格保證。針對這些挑戰(zhàn)，一項發(fā)表于《Alexandria Engineering Journal》的研究提出了一種創(chuàng)新的解決方案。

為了攻克上述難題，研究人員設計并實現(xiàn)了一個名為“GRPO-MDP”（Group Relative Policy Optimization with a Multimodal Diffusion Strategy）的全新框架。該研究的核心技術方法主要包括：1. 多模態(tài)擴散策略網(wǎng)絡：利用去噪擴散概率模型（DDPM）構建策略網(wǎng)絡，使其能夠從同一環(huán)境狀態(tài)生成多種不同的可行動作（如繞行方向），增強了策略的多樣性與探索能力。2. 分組相對策略優(yōu)化（GRPO）：摒棄了傳統(tǒng)DRL中難以準確估計的價值網(wǎng)絡，通過將收集到的軌跡進行分組，在組內(nèi)根據(jù)軌跡回報進行相對排序來構建優(yōu)勢函數(shù)，從而更穩(wěn)定地優(yōu)化策略。3. 后見軌跡重標定機制：對失敗的飛行軌跡進行智能“改寫”，為其假設一個虛擬的目標或安全邊界，從而將這些失敗經(jīng)驗轉化為具有正面學習價值的樣本，緩解了稀疏獎勵問題。4. 實時安全濾波器：采用控制屏障函數(shù)（CBF）作為最后的安全保障，對策略網(wǎng)絡輸出的動作進行實時修正，嚴格保證無人機在任何時候都不違反預設的安全距離約束。

研究結果

1. 狀態(tài)與動作空間設計

研究將無人機導航任務建模為一個馬爾可夫決策過程（MDP）。狀態(tài)空間被精心設計為包含四個子空間：無人機自身的運動學狀態(tài)（位置、速度、姿態(tài)等）、相對于目標的狀態(tài)、對周圍障礙物的觀測（以包含相對位置和速度的點云形式表示）以及由Transformer編碼的過去歷史狀態(tài)-動作上下文。動作空間則定義為三維加速度命令，確保了控制的連續(xù)性與平滑性。

2. 擴散策略網(wǎng)絡的有效性

通過設計的U-Net骨干網(wǎng)絡結合條件注入機制，擴散模型成功學習到了多模態(tài)的動作分布。在相同的復雜障礙物場景下，該策略能夠穩(wěn)定地生成多種繞過障礙物的飛行路徑，驗證了其在捕獲和表達多種近優(yōu)解方面的能力。相比傳統(tǒng)的單峰高斯策略，擴散策略顯著提高了探索效率。

3. GRPO優(yōu)化與后見重標定的效果

實驗表明，GRPO方法在訓練穩(wěn)定性上優(yōu)于傳統(tǒng)的演員-評論家（Actor-Critic）方法，尤其是在獎勵稀疏的環(huán)境中。后見軌跡重標定機制顯著提升了學習效率，使智能體能夠從碰撞或失敗的飛行中吸取經(jīng)驗，加速了策略的收斂與性能提升。

4. CBF安全濾波器的保障作用

在包含動態(tài)障礙物的高風險仿真環(huán)境中，集成了CBF安全濾波器的GRPO-MDP框架實現(xiàn)了100%的碰撞避免。而僅使用概率懲罰的傳統(tǒng)DRL方法仍會出現(xiàn)少量違規(guī)情況。這證明了CBF能夠作為一個可靠的“安全網(wǎng)”，嚴格保障了硬安全約束。

5. 整體性能對比

在動態(tài)環(huán)境導航的綜合性測試中，GRPO-MDP框架在成功到達目標的比例、飛行路徑的總長度（效率）以及最小安全距離保持（安全性）等多個指標上，均顯著超越了經(jīng)典的DRL方法（如PPO、SAC）以及傳統(tǒng)的采樣規(guī)劃方法（如RRT*），展示了其綜合優(yōu)勢。

結論與意義

本研究提出的GRPO-MDP框架，成功地解決了無人機動態(tài)路徑規(guī)劃中的幾個核心挑戰(zhàn)。通過擴散模型實現(xiàn)了策略的多模態(tài)表達，使無人機具備了靈活應對同一場景多種可行方案的能力；通過GRPO和后見經(jīng)驗重標定，提高了在稀疏獎勵環(huán)境下的學習效率和穩(wěn)定性；最后，通過CBF安全濾波器，為無人機的自主飛行提供了嚴格的實時安全保證。

這項工作的意義在于，它不僅僅是將先進的生成模型（擴散模型）與強化學習相結合的一次成功嘗試，更是為移動機器人、自動駕駛等需要在復雜動態(tài)環(huán)境中確保安全與效率的領域，提供了一個可借鑒的通用框架范式。它表明，通過精心設計的狀態(tài)表示、創(chuàng)新的策略優(yōu)化算法以及嚴格的安全約束機制，能夠顯著提升自主系統(tǒng)在不確定現(xiàn)實世界中的性能和可靠性。未來，該框架有望擴展到多無人機協(xié)同、異構機器人編隊等更復雜的任務場景中。

熱點排行

新聞專題

聯(lián)系信箱：

粵ICP備09063491號