【3 分層強化學習】DIAYN

作者：由脆皮咕發表于攝影時間：2020-10-29

DIAYN的全稱是Diversity is All You Need，這篇屬於基於互資訊的skill discovery，是目前比較火的研究方向，這類skill discovery的思路一般是基於某些互資訊的目標函式學到skill的dynamic，或者說是skill與state的分佈，這是在沒有外界reward參與的條件下實現的，然後將這些學好的skill用到其他應用中，比如作為hierarchical RL的下層policy，這篇文章也是這個思路。

思想

本文主要提出了三個觀點：

（1）有用的skill可以用來控制agent訪問到某些state，即透過skill可以推斷出相應的state，並且不同的skill導向的state不同，使得skill具有可分辨性；

（2）透過state，而不是action，來分辨區分skill，因為不影響環境的action是無法被外界觀察到的，舉例來說，一個機械臂抓著一個杯子，把對杯子施加的力作為action的話，如果杯子不移動的話，那我們從外界是看不到這個力作用的影響的，即無法透過這個action推斷skill，但無論如何是可以通過當前抓杯子這個state推斷出這是一個抓杯子的skill；

（3）鼓勵探索以保證skill具有足夠的多樣性，使得不同的skill之間具有可分辨性。

目標函式構造

鑑於上述觀點，目標函式也基於此進行構建，首先最大化第一項