国产精品xxxxx,国产精品V在线播放,国产菊眼屁股无码免费

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

高斯-牛頓時序差分學習與非線性函數逼近

《IEEE Transactions on Neural Networks and Learning Systems》：Gauss–Newton Temporal Difference Learning With Nonlinear Function Approximation

【字體：大中小】 時間：2026年02月27日 來源：IEEE Transactions on Neural Networks and Learning Systems 8.9

編輯推薦：

　　提出基于高斯-牛頓迭代的GNTD學習方法，優化非線性Q函數近似，通過目標網絡避免雙采樣，分析不精確步長確保高效計算，推導全局最優收斂性，樣本復雜度提升至O(ε^{-1.5})，實驗驗證優于傳統TD方法。

摘要：

在本文中，我們提出了一種高斯-牛頓時序差分（GNTD）學習方法，用于解決具有非線性函數逼近的學習問題。在每次迭代中，該方法采用高斯-牛頓（GN）步驟來優化一種改進的均方貝爾曼誤差（MSBE）版本，同時利用目標網絡避免雙重采樣。通過對不精確的GN步驟進行分析，我們可以安全且高效地通過廉價的矩陣運算來計算GN更新。在溫和的條件下，對于各種非線性函數逼近，證明了該方法能夠非漸近地、以有限樣本量收斂到全局最優解。特別地，對于使用ReLU激活函數的神經網絡參數化，GNTD的樣本復雜度降低到了O（約為ε?1），而現有的神經時序差分（TD）方法的樣本復雜度為ε?2。此外，對于一般的光滑函數逼近，GNTD的樣本復雜度也達到了Oε?1.5。我們通過多個強化學習（RL）基準測試對這種方法進行了驗證，結果表明GNTD不僅能夠獲得更高的獎勵，而且收斂速度也比TD類型方法更快。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號