您當前的位置:首頁 > 體育

【AAAI2022】一種基於狀態擾動的魯棒強化學習演算法

作者:由 專知 發表于 體育時間:2022-02-01

【AAAI2022】一種基於狀態擾動的魯棒強化學習演算法

近年來,深度強化學習演算法在遊戲智慧 [1, 2]、機器人控制 [3, 4] 等領域取得了巨大的成功。然而,在很多真實應用的場景下,用於測試的目標環境往往與用於訓練的源環境存在差異。例如,模擬環境和真實環境的物理引數往往難以精確保持一致;測試時環境中可能會出現訓練時未曾出現的擾動。這種源環境與目標環境的不一致可能來自於模擬器到真實環境的遷移或不同測試環境之間的差異 [5, 6],而這種差異往往會導致在源環境訓練得到的表現良好的策略在目標環境中效能出現明顯的下降。

為了解決上述問題,現有的魯棒強化學習方法通常透過將目標環境的擾動提前建模並新增至源環境中,以增強策略遷移時的魯棒性。例如,domain randomization (DR) [7] 在訓練時隨機地改變環境引數以生成一系列不同環境下的訓練資料,透過這種方式來近似目標環境中潛在的擾動;robust adversarial reinforcement learning (RARL) [5] 將環境擾動建模為模擬機器人特定部位的可訓練的對抗力並和主智慧體一起交替訓練。這些演算法在以往的研究中都被證明取得了良好的實驗效果。

然而,提前建模目標環境的擾動並新增到源環境的思路在真實應用場景中會出現如下兩個限制。首先,我們通常需要在訓練過程中引入關於這些擾動的先驗知識。例如,DR 演算法需要提前指定訓練時哪些環境引數需要變化,而這往往與目標環境可能出現的擾動相關聯;RARL 演算法需要人工設計特定的力新增至模擬機器人的特定位置,以建模真實環境中可能出現的擾動形式。然而,當我們需要將策略遷移到一個從未見過的目標環境時,我們往往會缺乏對於該環境的先驗知識。其次,提前建模目標環境的擾動並新增到源環境通常還假設我們有一個良好的模擬器,可以用於控制各種真實環境中動力學引數的變化。然而,設計滿足這樣要求的模擬器可能是高成本的,且流體動力學影響、機器人部件的損耗這些環境動力學引數的建模往往較為困難。總而言之,在許多的真實場景任務中,我們可能難以提前預知擾動的具體形式,甚至不能假設擾動遵循某種特定形式。這時候我們需要設計新的魯棒強化學習演算法,以實現在較少關於擾動的先驗知識的情況下學習一個更魯棒的策略。

在本文中,我們提出了一種新的基於狀態擾動的魯棒強化學習方法 (State-Conservative Policy Optimization, SCPO) ,將難以提前建模的真實環境擾動轉換為狀態擾動並透過正則項近似後引入訓練過程,以實現在使用較少先驗知識的情況下增強策略遷移時的魯棒性。具體地,我們注意到任何來自環境的擾動都將透過影響未來時刻狀態的形式影響該智慧體的決策軌跡。基於此,我們提出了一類 State-Conservative Markov Decision Process (SC-MDP)以顯式地考慮來自狀態空間的擾動,從而將以往的 robust Markov decision process (RMDP) 理論中來自狀態轉移函式空間的無限維約束最佳化問題變為來自狀態空間的有限維約束最佳化問題,並透過一項基於梯度的正則項對該約束最佳化問題進行化簡和近似。實驗結果顯示,SCPO 演算法在多個 MuJoCo 模擬機器人控制任務上習得了面對環境擾動更為策略魯棒的策略。

【AAAI2022】一種基於狀態擾動的魯棒強化學習演算法

https://www。

zhuanzhi。ai/paper/174d0

f12b976bf876a8502b6052e0aeb

標簽: 擾動  環境  建模  訓練  真實