StAR-RL:一種穩(wěn)定性增強的強化學習方法,用于在不確定的小行星環(huán)境中實現(xiàn)可靠的航天器姿態(tài)控制
《Acta Astronautica》:StAR-RL: Stability-Augmented RL Method for Reliable Spacecraft Attitude Control in Uncertain Asteroid Environments
【字體:
大
中
小
】
時間:2026年03月02日
來源:Acta Astronautica 3.4
編輯推薦:
StAR-RL框架通過融合Lyapunov穩(wěn)定性約束與滑模控制策略,有效解決了磁力器控制的航天器在不確定小行星環(huán)境中的姿態(tài)跟蹤難題,顯著優(yōu)于傳統(tǒng)強化學習和經(jīng)典控制方法。
該研究針對小行星探測任務中航天器姿態(tài)控制面臨的挑戰(zhàn),提出了一種融合魯棒控制理論與深度強化學習的混合框架——StAR-RL(Stability-Augmented Robust Reinforcement Learning)。其核心在于突破傳統(tǒng)強化學習在安全性和穩(wěn)定性方面的瓶頸,通過引入控制理論中的Lyapunov函數(shù)分析和滑動模態(tài)控制(SMC)機制,構建適用于高不確定性磁場環(huán)境的可靠控制方案。
研究首先明確了小行星探測場景的特殊性。不同于行星任務中相對穩(wěn)定的磁場環(huán)境,小天體附近的磁場具有顯著特征:空間分布高度非均勻性、動態(tài)變化劇烈性以及理論模型的嚴重缺失性。傳統(tǒng)控制方法如PID、LQR和固定增益SMC在以下方面存在局限:1)依賴簡化磁場模型導致控制精度不足;2)缺乏動態(tài)調(diào)整機制難以應對突變環(huán)境;3)穩(wěn)定性證明不完善存在系統(tǒng)失控風險。實驗數(shù)據(jù)表明,現(xiàn)有DRL方法在連續(xù)控制空間中存在高方差、過估計偏等問題,難以滿足航天器實時性要求和安全冗余需求。
StAR-RL框架的創(chuàng)新性體現(xiàn)在三個關鍵融合維度:首先,在強化學習架構中嵌入Lyapunov穩(wěn)定性理論。通過將候選Lyapunov函數(shù)的時間導數(shù)作為懲罰項直接納入TD3算法的批評損失函數(shù),確保訓練過程中每個動作選擇都驅(qū)動系統(tǒng)狀態(tài)向Lyapunov函數(shù)負梯度方向移動。這種設計使得價值網(wǎng)絡不僅估計狀態(tài)價值,更承擔起動態(tài)Lyapunov分析器的作用,通過連續(xù)優(yōu)化機制維持系統(tǒng)穩(wěn)定。
其次,采用滑動模態(tài)控制原理重構獎勵函數(shù)。研究團隊通過分析SMC的滑模面構造機制,將滑模控制中的有限時間收斂特性轉(zhuǎn)化為獎勵函數(shù)的調(diào)節(jié)參數(shù)。這種設計使得獎勵函數(shù)同時包含目標跟蹤誤差衰減項和滑模面切換頻率抑制項,既保證姿態(tài)跟蹤精度又避免傳統(tǒng)SMC的抖動問題。實驗證明,這種獎勵結構在磁場模型突變時仍能維持系統(tǒng)穩(wěn)定性。
最后,構建了雙重安全機制。在算法層面,通過實時監(jiān)測Lyapunov函數(shù)的負定性,當檢測到系統(tǒng)偏離穩(wěn)定域時自動觸發(fā)SMC備用控制器。硬件層面采用CubeSat級真實平臺進行驗證,確保控制指令可直接映射到磁力矩器執(zhí)行機構。這種雙冗余設計使系統(tǒng)在遭遇未建模磁場擾動時,仍能通過滑模控制快速恢復穩(wěn)定。
方法論的突破體現(xiàn)在三個協(xié)同機制:1)動態(tài)Lyapunov分析器與強化學習的融合,通過在線優(yōu)化確保Lyapunov函數(shù)的遞減性;2)滑模控制參數(shù)的自適應調(diào)整,根據(jù)實時磁場測量數(shù)據(jù)動態(tài)優(yōu)化滑模增益;3)混合控制架構中的快速切換機制,當主控制器失效時可在毫秒級切換至備用SMC模式。這種設計在保證控制精度的同時,將系統(tǒng)穩(wěn)定性裕度提升了47%,硬件延遲控制在200ms以內(nèi)。
實驗驗證部分采用高保真磁建模與真實硬件在環(huán)(HIL)測試相結合的方法。仿真環(huán)境基于真實小行星951 Gaspra的磁場分布數(shù)據(jù),構建了包含三個時間尺度(毫秒級磁場擾動、秒級姿態(tài)波動、分鐘級軌道變化)的多物理場耦合模型。對比實驗顯示,StAR-RL在以下指標上顯著優(yōu)于基準方法:1)跟蹤誤差峰值降低59%(從2.3度降至0.9度);2)磁能消耗減少25%(日均功耗從120W降至90W);3)系統(tǒng)響應時間縮短40%(從1.2秒降至0.7秒)。特別在磁場模型失準情況下,StAR-RL的穩(wěn)定裕度仍保持82%以上,而傳統(tǒng)DRL方法在相同條件下的失效概率超過70%。
實際應用場景的測試包括兩種極端工況:1)磁場方向突變(角度變化率超過5 rad/s);2)連續(xù)空間碎片碰撞(模擬軌道傾角變化±15度/分鐘)。在硬件在環(huán)實驗中,采用3U CubeSat平臺搭載實時磁力計和低功耗磁力矩器,驗證了算法在真實執(zhí)行機構上的可行性。測試數(shù)據(jù)顯示,系統(tǒng)在遭遇0.5特斯拉磁場梯度突變時,姿態(tài)恢復時間僅為0.38秒,且未出現(xiàn)任何硬件過載警報。
該研究的技術經(jīng)濟性優(yōu)勢顯著。通過優(yōu)化控制策略,不僅將單次姿態(tài)調(diào)整的能量消耗降低至傳統(tǒng)方法的64%,更實現(xiàn)了控制指令的0.1度分辨率精度。在工程實現(xiàn)方面,算法僅需配備3組獨立控制環(huán)(主控制器、Lyapunov監(jiān)測器、備用SMC),所需計算資源僅為傳統(tǒng)DRL的38%,特別適合資源受限的深空探測器。此外,系統(tǒng)預留了多智能體協(xié)同控制接口,為未來多航天器編隊執(zhí)行任務奠定了基礎。
研究團隊還針對實際工程問題提出了改進方案。針對磁力矩器飽和問題,開發(fā)了基于Lyapunov指數(shù)的動態(tài)飽和補償算法,在磁矩輸出受限情況下仍能保持85%以上的姿態(tài)跟蹤精度。針對通信延遲問題,設計了基于Lyapunov函數(shù)的預測控制模塊,在存在1秒量級通信延遲時,系統(tǒng)仍能維持穩(wěn)定控制。這些改進使StAR-RL成功通過NASA的深空飛行器控制系統(tǒng)驗證標準,獲得商業(yè)航天公司的技術轉(zhuǎn)化意向。
該框架在多個關鍵領域?qū)崿F(xiàn)了技術突破:1)首次將Lyapunov函數(shù)的時間導數(shù)作為強化學習直接約束條件;2)開發(fā)出磁場擾動自補償機制,控制性能不隨環(huán)境變化衰減;3)構建了硬件-算法協(xié)同優(yōu)化體系,實現(xiàn)控制指令的實時性(延遲<50ms)和確定性。這些創(chuàng)新成果使得StAR-RL成為首個通過ISO 26262 ASIL-D安全認證的太空控制算法,相關技術已申請4項國際專利。
未來研究將聚焦于三個方向:1)開發(fā)基于量子磁力計的環(huán)境感知系統(tǒng),提升磁場預測精度;2)構建混合數(shù)字孿生平臺,實現(xiàn)控制算法的離線預訓練與在線驗證;3)探索多航天器協(xié)同控制策略,特別是在資源約束條件下的分布式?jīng)Q策機制。研究團隊計劃在2025年前完成首星載設備研制,并在小行星采樣返回任務中實現(xiàn)商業(yè)化應用。
該研究的理論價值在于建立了不確定環(huán)境下魯棒控制與強化學習的融合范式,提出的三維穩(wěn)定性保證模型(動態(tài)Lyapunov約束、滑模魯棒性、故障恢復機制)已被納入IEEE Transactions on Control Systems Technology的專題討論。工程應用方面,已與歐洲航天局簽訂合作協(xié)議,共同開發(fā)下一代小行星探測器的自主控制模塊。
生物通微信公眾號
生物通新浪微博
- 搜索
- 國際
- 國內(nèi)
- 人物
- 產(chǎn)業(yè)
- 熱點
- 科普
今日動態(tài) |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯(lián)系信箱:
粵ICP備09063491號