<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        高斯-牛頓時序差分學習與非線性函數逼近

        《IEEE Transactions on Neural Networks and Learning Systems》:Gauss–Newton Temporal Difference Learning With Nonlinear Function Approximation

        【字體: 時間:2026年02月27日 來源:IEEE Transactions on Neural Networks and Learning Systems 8.9

        編輯推薦:

          提出基于高斯-牛頓迭代的GNTD學習方法,優化非線性Q函數近似,通過目標網絡避免雙采樣,分析不精確步長確保高效計算,推導全局最優收斂性,樣本復雜度提升至O(ε^{-1.5}),實驗驗證優于傳統TD方法。

          

        摘要:

        在本文中,我們提出了一種高斯-牛頓時序差分(GNTD)學習方法,用于解決具有非線性函數逼近的學習問題。在每次迭代中,該方法采用高斯-牛頓(GN)步驟來優化一種改進的均方貝爾曼誤差(MSBE)版本,同時利用目標網絡避免雙重采樣。通過對不精確的GN步驟進行分析,我們可以安全且高效地通過廉價的矩陣運算來計算GN更新。在溫和的條件下,對于各種非線性函數逼近,證明了該方法能夠非漸近地、以有限樣本量收斂到全局最優解。特別地,對于使用ReLU激活函數的神經網絡參數化,GNTD的樣本復雜度降低到了O(約為ε?1),而現有的神經時序差分(TD)方法的樣本復雜度為ε?2。此外,對于一般的光滑函數逼近,GNTD的樣本復雜度也達到了Oε?1.5。我們通過多個強化學習(RL)基準測試對這種方法進行了驗證,結果表明GNTD不僅能夠獲得更高的獎勵,而且收斂速度也比TD類型方法更快。
        相關新聞
        生物通微信公眾號
        微信
        新浪微博
        • 搜索
        • 國際
        • 國內
        • 人物
        • 產業
        • 熱點
        • 科普

        知名企業招聘

        熱點排行

          今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

          版權所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯系信箱:

          粵ICP備09063491號