《Alexandria Engineering Journal》:Enhancing UAV path planning with diffusion models and group relative policy optimization
編輯推薦:
本文針對動態(tài)環(huán)境中無人機(UAV)自主路徑規(guī)劃的不確定性問題,提出了結合多模態(tài)擴散策略與分組相對策略優(yōu)化(GRPO-MDP)的新框架。該研究利用去噪擴散概率模型(DDPM)生成多樣化的動作樣本,通過組內(nèi)軌跡比較構建優(yōu)勢函數(shù),并引入后見軌跡重標定機制與基于控制屏障函數(shù)(CBF)的安全濾波器。實驗結果表明,該框架在動態(tài)環(huán)境中,在成功率、路徑效率與安全性方面均優(yōu)于現(xiàn)有方法,為無人機自主導航提供了更可靠高效的解決方案。
在無人機(UAV)日益廣泛地應用于農(nóng)業(yè)巡檢、環(huán)境監(jiān)測、應急救援等諸多領域的當下,如何讓這些“空中精靈”在復雜、動態(tài)的環(huán)境中自主、安全、高效地飛行,已成為一個亟待解決的關鍵難題。傳統(tǒng)的路徑規(guī)劃方法,如基于采樣的RRT(快速隨機探索樹)或基于優(yōu)化的方法,往往計算開銷大,難以應對實時變化的環(huán)境,且生成的路徑可能不夠平滑。近年來,深度強化學習(DRL)為無人機賦予了從交互中“學習”飛行策略的能力,展現(xiàn)出巨大潛力。然而,現(xiàn)有DRL方法通常存在兩大瓶頸:一是策略往往局限于單一模式,當面對一個障礙物時,向左繞和向右繞可能是等效的,但傳統(tǒng)策略只能學會其中一種,限制了探索的靈活性與策略的表達能力;二是學習過程嚴重依賴于稀疏的成功獎勵信號,大量的失敗經(jīng)驗被簡單拋棄,未能轉化為有效的學習信號,導致樣本效率低下。此外,確保無人機在高速飛行中絕不與障礙物相撞的“硬安全”約束,也往往難以得到嚴格保證。針對這些挑戰(zhàn),一項發(fā)表于《Alexandria Engineering Journal》的研究提出了一種創(chuàng)新的解決方案。
為了攻克上述難題,研究人員設計并實現(xiàn)了一個名為“GRPO-MDP”(Group Relative Policy Optimization with a Multimodal Diffusion Strategy)的全新框架。該研究的核心技術方法主要包括:1. 多模態(tài)擴散策略網(wǎng)絡:利用去噪擴散概率模型(DDPM)構建策略網(wǎng)絡,使其能夠從同一環(huán)境狀態(tài)生成多種不同的可行動作(如繞行方向),增強了策略的多樣性與探索能力。2. 分組相對策略優(yōu)化(GRPO):摒棄了傳統(tǒng)DRL中難以準確估計的價值網(wǎng)絡,通過將收集到的軌跡進行分組,在組內(nèi)根據(jù)軌跡回報進行相對排序來構建優(yōu)勢函數(shù),從而更穩(wěn)定地優(yōu)化策略。3. 后見軌跡重標定機制:對失敗的飛行軌跡進行智能“改寫”,為其假設一個虛擬的目標或安全邊界,從而將這些失敗經(jīng)驗轉化為具有正面學習價值的樣本,緩解了稀疏獎勵問題。4. 實時安全濾波器:采用控制屏障函數(shù)(CBF)作為最后的安全保障,對策略網(wǎng)絡輸出的動作進行實時修正,嚴格保證無人機在任何時候都不違反預設的安全距離約束。
研究結果
1. 狀態(tài)與動作空間設計
研究將無人機導航任務建模為一個馬爾可夫決策過程(MDP)。狀態(tài)空間被精心設計為包含四個子空間:無人機自身的運動學狀態(tài)(位置、速度、姿態(tài)等)、相對于目標的狀態(tài)、對周圍障礙物的觀測(以包含相對位置和速度的點云形式表示)以及由Transformer編碼的過去歷史狀態(tài)-動作上下文。動作空間則定義為三維加速度命令,確保了控制的連續(xù)性與平滑性。
2. 擴散策略網(wǎng)絡的有效性
通過設計的U-Net骨干網(wǎng)絡結合條件注入機制,擴散模型成功學習到了多模態(tài)的動作分布。在相同的復雜障礙物場景下,該策略能夠穩(wěn)定地生成多種繞過障礙物的飛行路徑,驗證了其在捕獲和表達多種近優(yōu)解方面的能力。相比傳統(tǒng)的單峰高斯策略,擴散策略顯著提高了探索效率。
3. GRPO優(yōu)化與后見重標定的效果
實驗表明,GRPO方法在訓練穩(wěn)定性上優(yōu)于傳統(tǒng)的演員-評論家(Actor-Critic)方法,尤其是在獎勵稀疏的環(huán)境中。后見軌跡重標定機制顯著提升了學習效率,使智能體能夠從碰撞或失敗的飛行中吸取經(jīng)驗,加速了策略的收斂與性能提升。
4. CBF安全濾波器的保障作用
在包含動態(tài)障礙物的高風險仿真環(huán)境中,集成了CBF安全濾波器的GRPO-MDP框架實現(xiàn)了100%的碰撞避免。而僅使用概率懲罰的傳統(tǒng)DRL方法仍會出現(xiàn)少量違規(guī)情況。這證明了CBF能夠作為一個可靠的“安全網(wǎng)”,嚴格保障了硬安全約束。
5. 整體性能對比
在動態(tài)環(huán)境導航的綜合性測試中,GRPO-MDP框架在成功到達目標的比例、飛行路徑的總長度(效率)以及最小安全距離保持(安全性)等多個指標上,均顯著超越了經(jīng)典的DRL方法(如PPO、SAC)以及傳統(tǒng)的采樣規(guī)劃方法(如RRT*),展示了其綜合優(yōu)勢。
結論與意義
本研究提出的GRPO-MDP框架,成功地解決了無人機動態(tài)路徑規(guī)劃中的幾個核心挑戰(zhàn)。通過擴散模型實現(xiàn)了策略的多模態(tài)表達,使無人機具備了靈活應對同一場景多種可行方案的能力;通過GRPO和后見經(jīng)驗重標定,提高了在稀疏獎勵環(huán)境下的學習效率和穩(wěn)定性;最后,通過CBF安全濾波器,為無人機的自主飛行提供了嚴格的實時安全保證。
這項工作的意義在于,它不僅僅是將先進的生成模型(擴散模型)與強化學習相結合的一次成功嘗試,更是為移動機器人、自動駕駛等需要在復雜動態(tài)環(huán)境中確保安全與效率的領域,提供了一個可借鑒的通用框架范式。它表明,通過精心設計的狀態(tài)表示、創(chuàng)新的策略優(yōu)化算法以及嚴格的安全約束機制,能夠顯著提升自主系統(tǒng)在不確定現(xiàn)實世界中的性能和可靠性。未來,該框架有望擴展到多無人機協(xié)同、異構機器人編隊等更復雜的任務場景中。