機率圖模型(六)：強化學習機率推斷

作者：由理想主義者發表于寵物時間：2022-05-13

每日一句

There is not one big cosmic meaning for all， there is only the meaning we each give to our life。 — Anaïs Nin

本文大綱如下：

前言

透過將學習問題的全部內容用機率理論的術語來表達，機率圖模型（PGM）提供了一致和靈活的框架來設計原則性的目標，建立反映世界因果結構的模型，並允許針對廣泛的問題領域部署一套通用的推理方法。最重要的是，在PGM的框架中，只需寫下模型和提出問題，學習和推理的目標就會自動出現。

強化學習

（reinforcement learning）或最優控制的決策問題被設計為一個框架，該框架旨在透過用效用或獎勵來增強機率模型，其中

獎勵函式

（ eward function）被視為一個外在的訊號。儘管底層動態系統仍可由機率圖模型描述，確定最佳行動方案（計劃）或最佳決策策略（政策）是一個與機率推理完全不同的問題型別。後面將介紹：決策問題只是一個特定型別的圖模型中的推理問題。將決策形式化為機率圖模型中的推理，原則上可以讓我們使用大量的近似推理工具，以靈活和強大的方式擴充套件模型，並對組合性和部分觀察性進行推理。

具體來說，我們將討論強化學習或最優控制問題的泛化，有時被稱為

最大熵強化學習

（maximum entropy reinforcement learning），在確定性動力學的情況下相當於精確的機率推理，而在隨機動力學的情況下相當於變分推理。雖然具體的推導方法不同，但基礎框架和最佳化目標是相同的。所有這些方法都涉及到將控制或強化學習明確或隱含地表述為PGM，然後使用PGM學習和推理方法來解決問題。

將強化學習和決策表述為推理，還引出了提供了：基於最大熵的自然探索策略，

逆向強化學習

（inverse reinforcement learning），以及部署強大的近似推理演算法來解決強化學習問題的能力。此外，機率推理和控制之間的聯絡為獎勵函式的意義及其對最優策略的影響提供了機率解釋。強化學習中獎勵或成本函式的設計往往是藝術與科學的結合，獎勵的選擇往往模糊了演算法和目標之間的界限，特定任務的啟發式方法和任務目標結合成一個獎勵。在作為推理的控制框架中，獎勵勾勒一個隨機變數的分佈，最優策略的目的是明確地匹配由獎勵和系統動力學定義的機率分佈。

強化學習介紹

在監督學習中，我們有一組資料

$D=\left[x_{i}, y_{i}\right]_{i=1}^{n}$

，我們的目的是學習一個近似於

$P(y\mid x)$

的模型。在無監督學習中，我們有一組資料

$D=\left[\left(x_{1}, x_{2}, x_{3} \ldots, x_{d}\right)_{i}\right]_{i=1}^{n}$

，我們尋求學習一個接近

$P\left(x_{1}, x_{2} \ldots, x_{d}\right)$

的模型。強化學習是一個閉環，AGENT可以與世界互動，獲得樣本並學習一個策略，在給定的環境中實現獎勵函式的最大化。

強化學習可以稱為馬爾可夫決策過程（Markov Decision Process， MDP）。一個MDP由一組

$\operatorname{states}(\mathrm{S})$

、一組可能的

行動

$(\mathrm{A})$

、

環境動態

$\left(P\left(s_{t+1} \mid s_{t}, a_{t}\right)\right)$

和一個

獎勵函式

$\mathrm{r}(\mathrm{s}, \mathrm{a})$

指定。環境動力學（environment dynamics）規定了agent在採取行動

後從狀態

$s_{t}$

到狀態

$s_{t+1}$

的轉移機率。獎勵函式提供了一個標量反饋，指定了行動的效用。該MDP中的

軌跡

（trajectory）表示為

$\tau=\left(s_{1}, a_{1}, r_{1}, s_{2}, a_{2}, r_{2}, \ldots, s_{H}\right) \\$

利用這個框架，我們可以解決兩個常見的問題。第一個問題是找到一個策略

$\pi: S \rightarrow A$

，為每個給定的狀態輸出行動，使沿軌跡的累積獎勵達到最大。另外，我們可能給定的一組最優軌跡找出MDP。第一個問題是標準的RL目標，而第二個問題則被稱為逆向強化學習。

定義

從時間點t開始的累積回報被定義為從時間點t開始的累積獎勵

$G_{t}=r_{t+1}+r_{t+2}+. .+r_{T} \\$

如果

$t=\infty$

，總和就會發散，我們可以使用折扣係數

$\gamma$

的概念，其中

$0<\gamma<1$

，得到一個有限的總和。

$\begin{array}{r} G_{t}=r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+\ldots \\ =r_{t+1}+\gamma G_{t+1} \end{array} \\$

策略是一種從狀態到行動的對映。它可以是確定性的，也可以是隨機性的。在最一般的形式下，在任何狀態下，s

$a \sim \pi(a \mid s) \\$

狀態

的價值函式被定義為從狀態

開始並遵循策略

$\pi$

時獲得的累積獎勵期望。

$V_{\pi}(s):=E_{\pi}\left[G_{t} \mid s_{t}=s\right]=E_{\pi}\left[\sum_{k=0}^{T} \gamma^{k} r_{t+k+1} \mid s_{t}=s\right] \\$

狀態-行動對的價值函式或更多地被稱為狀態-行動對（s，a）的

$\mathbf{Q}$

函式，被定義為從狀態

開始，採取行動a並在此後遵循策略

$\pi$

時獲得的累積獎勵期望。

$Q_{\pi}(s, a):=E_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right]=E_{\pi}\left[\sum_{k=0}^{T} \gamma^{k} r_{t+k+1} \mid s_{t}=s, a_{t}=a\right] \\$

價值和Q函式的貝爾曼方程

鑑於價值和

$\mathrm{Q}$

函式的定義，自然可以推匯出以下貝爾曼方程。

$\begin{aligned} V_{\pi}(s) &:=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{T} \gamma^{k} r_{t+k+1} \mid s_{t}=s\right] \\ &=\mathbb{E}_{\pi}\left[r_{t+1}+\gamma G_{t+1} \mid s_{t}=s\right] \\ &=\sum_{a} \pi(a \mid s) \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right)\left[r(s, a)+\gamma \mathbb{E}_{\pi}\left[G_{t+1} \mid s_{t+1}=s^{\prime}\right]\right.\\ &=\sum_{a} \pi(a \mid s) \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right)\left[r(s, a)+\gamma V_{\pi}\left(s^{\prime}\right)\right] \\ Q_{\pi}(s,a) &:=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{T} \gamma^{k} r_{t+k+1} \mid s_{t}=s, a_{t}=a\right] \\ &=r(s, a)+\gamma \mathbb{E}_{\pi}\left[G_{t+1} \mid s_{t}=s, a_{t}=a\right] \\ &=r(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) \sum_{a^{\prime}} \pi\left(a^{\prime} \mid s^{\prime}\right) \mathbb{E}_{\pi}\left[G_{t+1} \mid s_{t+1}=s^{\prime}, a_{t+1}=a^{\prime}\right] \\ &=r(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) \sum_{a^{\prime}} \pi\left(a^{\prime} \mid s^{\prime}\right) Q_{\pi}\left(s^{\prime}, a^{\prime}\right) \end{aligned} \\$

最優策略和價值函式

RL的目標：找到能實現最高預期收益的最優政策。如果一個策略

$\pi$

在所有狀態下的預期收益都大於

$\pi^{\prime}$

，則該策略優於或等於

$\pi^{\prime}\left(\pi \geq \pi^{\prime}\right)$

：

$\pi \geq \pi^{\prime} \Leftrightarrow V_{\pi}(s) \geq V_{\pi^{\prime}}(s) \forall s \in S \\$

鑑於此，我們可以定義最優價值和Q函式，以及貝爾曼最優方程：

$V_{*}(s):=\max _{\pi} V_{\pi}(s)=\max _{a} \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right)\left[r(s, a)+\gamma V_{*}\left(s^{\prime}\right)\right] \\$

$Q_{*}(s, a):=\max _{\pi} Q_{\pi}(s, a)=\sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right)\left[r(s, a)+\gamma \max _{a^{\prime}} Q_{*}\left(s^{\prime}, a^{\prime}\right)\right] \\$

其中

$\gamma$

是折扣因子，表示未來狀態下獎勵的重要性。上述貝爾曼更新也可以用下圖來說明。

如果我們能計算出最優的

$\mathrm{Q}$

值

$Q_{*}(s, a)$

，那麼我們可以恢復最優政策

$\pi_{*}(a \mid s)$

：

$\pi_{*}(a \mid s)=\delta\left(a=\arg \max _{a} Q_{*}(s, a)\right) \\$

為了恢復一組最優軌跡，我們只需要執行最優策略：

$\begin{aligned} \tau_{*} &=\left(s_{1}^{*}, a_{1}^{*}, r_{1}^{*}, s_{2}^{*}, a_{2}^{*}, r_{2}^{*}, \ldots\right) \\ s_{t+1}^{*} & \sim p\left(s_{t+1} \mid s_{t}, a_{t}^{*}=\arg \max _{a} Q_{*}(s, a)\right) \end{aligned} \\$

設

$V_{t}\left(s_{t}\right)=\log \beta_{t}\left(s_{t}\right), Q_{t}\left(s_{t}, a_{t}\right)=\log \beta_{t}\left(s_{t}, a_{t}\right)$

。

$\tau=\left(s_{1}, a_{1}, \ldots, s_{T}, a_{T}\right)$

作為完整軌跡。

$p(\tau)=p\left(\tau \mid \mathcal{O}_{1: T}\right)$

。在圖模型中推理，可以計算出：

$p\left(\tau \mid \mathcal{O}_{1: T}\right) \propto p\left(s_{t}\right) \prod_{t=2}^{T} p\left(s_{t+1} \mid s_{t}, a_{t}\right) \times \exp \left(\sum_{t=1}^{T} r\left(s_{t}, a_{t}\right)\right) \\$

此外，我們還知道以下的軟性關係：

$V\left(s_{t}\right)=\log \int \exp \left(Q\left(s_{t}, a_{t}\right)+\log p\left(a_{t} \mid s_{t}\right)\right) d a_{t} \\$

我們也能得到：

$p\left(a_{t} \mid s_{t}, \mathcal{O}_{1: T}\right)=\exp \left(Q_{t}\left(s_{t}, a_{t}\right)-V_{t}\left(s_{t}\right)\right) \\$

其中，我們通常稱

$A_{t}\left(s_{t}, a_{t}\right)=Q_{t}\left(s_{t}, a_{t}\right)-V_{t}\left(s_{t}\right)$

為

優勢函式

（advantage function）。

推理程式想要最佳化的目標是

$\mathrm{KL}$

散度：

$-D_{K L}(\hat{p}(\tau) \| p(\tau))=\sum_{t=1}^{T} \mathbb{E}_{\left(s_{t}, a_{t}\right) \sim \hat{p}\left(s_{t}, a_{t}\right)}\left[r\left(s_{t}, a_{t}\right)\right]+\mathbb{E}_{s_{t} \sim \hat{p}\left(s_{t}\right)}\left[\mathcal{H}\left(\pi\left(a_{t} \mid s_{t}\right)\right)\right] \\$

其中

$\mathcal{H}\left(\pi\left(a_{t} \mid s_{t}\right)\right)$

是策略的熵。第一項只是標準的RL目標，而第二個熵項是用於正則化。

對於確定性動態，我們可以直接得到這個目標。對於隨機動態，我們從ELBO中得到（後面介紹）。

小結

強化學習通常被建模為馬爾可夫決策過程（MDP），一個典型的MDP有4個主要部分。

初始狀態分佈：

$s_{0} \sim p_{0}(s)$

轉移機率：

$s_{t+1} \sim p\left(s_{t+1} \mid s_{t}, a_{t}\right)$

策略：

$a_{t} \sim \pi \left(a_{t} \mid s_{t}\right)$

獎勵：

$r_{t}=r\left(s_{t}, a_{t}\right)$

為了用圖形模型表示MDP，我們引入了一個輔助變數

$\mathcal{O}$

來定義最優軌跡的分佈。圖模型的表示方法為：

初始狀態分佈：

$s_{0} \sim p_{0}(s)$

轉移機率：

$s_{t+1} \sim p\left(s_{t+1} \mid s_{t}, a_{t}\right)$

策略：

$a_{t} \sim \pi\left(a_{t} \mid s_{t}\right)$

獎勵：

$r_{t}=r\left(s_{t}, a_{t}\right)$

最佳化：

$p\left(\mathcal{O}_{t}=1 \mid s_{t}, a_{t}\right)=exp \left(r\left(s_{t}, a_{t}\right) \right)$

引入的輔助變數

$\mathcal{O}$

允許我們對次優行為進行建模，並可用於解決逆向強化學習問題。

$\mathrm{RL}$

的圖模型表示為我們提供了一種透過推理演算法解決控制和規劃問題的選擇。

策略梯度

在本節中，我們將研究直接最佳化標準RL目標函式

$E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right]$

。

$\theta$

是策略函式的引數，即

$\pi_{\theta}(\mathbf{a} \mid \mathbf{s})$

，相當於找到最佳策略函式。

首先，讓我們從定義軌跡的機率分佈開始。任何軌跡

$\tau$

的機率由以下公式給出：

$p_{\theta}(\tau)=p_{\theta}\left(\mathbf{s}_{1}, \mathbf{a}_{1}, \ldots, \mathbf{s}_{T}, \mathbf{a}_{T}\right)=p\left(\mathbf{s}_{1}\right) \prod_{t=1}^{T} \pi_{\theta}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right) p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) \\$

現在，

$\theta$

的最優值是使我們的報酬期望最大化，即：

$\theta^{\star}=\arg \max _{\theta} E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] \\$

目標函式

$J(\theta)$

為

$J(\theta)=E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] \\$

因此，最優的

$\theta$

是使目標函式最大化的

$\theta$

$\theta^{\star}=\arg \max _{\theta} J(\theta) \\$

我們可以透過提取軌跡

$\tau\sim p_{\theta}(\tau)$

、計算期望的蒙特卡洛估計來估計這個目標函式

$J(\theta)=E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] \approx \frac{1}{N} \sum_{i} \sum_{t} r\left(\mathbf{s}_{i, t}, \mathbf{a}_{i, t}\right) \\$

對目標函式

$J(\theta)$

進行梯度上升來最佳化。在目標函式的近似形式中，

$J(\theta)$

對引數

$\theta$

沒有明確的依賴性。這可能會使我們認為

$\nabla_{\theta} J(\theta)=0$

。當然不是，對

$\theta$

的依賴被加入蒙特卡洛近似中。為了明確這種依賴性，我們可以把

$\nabla_{\theta} J(\theta)$

寫成如下形式：

$\begin{aligned} \nabla_{\theta} J(\theta) &=\nabla_{\theta} E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] \\ &=\nabla_{\theta} \int p_{\theta}(\tau)\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] d \tau \\ &=\int \nabla_{\theta} p_{\theta}(\tau)\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] d \tau \\ &=\int\left[\nabla_{\theta} p_{\theta}(\tau)\right]\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] d \tau \end{aligned} \\$

其中第二步來自期望的定義，第三步是由於積分和梯度運算元的線性，第四步是由於

$\left.\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right]$

不依賴

$\theta$

。

$\nabla_{\theta} J(\theta)$

很難計算，因為這個積分沒有明顯的蒙特卡洛估計，

$\nabla_{\theta} p_{\theta}(\tau)$

取決於環境的動態變化

$p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)$

，我們可能不知道這種變化是什麼。

我們可以使用對數梯度技巧來輕鬆估計

$J(\theta)$

。更具體地說：

$\nabla_{\theta} \log p_{\theta}(\tau)=\frac{\nabla_{\theta} p_{\theta}(\tau)}{p_{\theta}(\tau)} \\$

因此，

$\nabla_{\theta} p_{\theta}(\tau)$

可以寫為：

$\nabla_{\theta} p_{\theta}(\tau)=p_{\theta}(\tau) \nabla_{\theta} \log p_{\theta}(\tau) \\$

現在，我們將

$\nabla_{\theta} p_{\theta}(\tau)$

代入到

$\nabla_{\theta} J(\theta)$

的表示式中

$\begin{aligned} \nabla_{\theta} J(\theta) &=\nabla_{\theta} E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] \\ &=\int\left[\nabla_{\theta} p_{\theta}(\tau)\right]\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] d \tau \\ &=\int\left[p_{\theta}(\tau) \nabla_{\theta} \log p_{\theta}(\tau)\right]\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] d \tau \end{aligned} \\$

因此，我們把

$\nabla_{\theta} J(\theta)$

寫成對

$p_{\theta}(\tau)$

的期望

$\nabla_{\theta} J(\theta)=E_{\tau \sim p_{\theta}(\tau)}\left[\nabla_{\theta} \log p_{\theta}(\tau) \sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] \\$

試著評估

$\nabla_{\theta}\log p_{\theta}(\tau)$

，首先寫出

$log p_{\theta}(\tau)$

$\log p_{\theta}(\tau)=\log p\left(\mathbf{s}_{1}\right)+\sum_{t} \log \pi_{\theta}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)+\log p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) \\$

$\nabla_{\theta} \log p_{\theta}(\tau)$

變為：

$\nabla_{\theta} \log p_{\theta}(\tau)=\sum_{t} \nabla_{\theta} \log \pi_{\theta}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right) \\$

最後，將

$\nabla_{\theta}\log p_{\theta}(\tau)$

的表示式代入

$\nabla_{\theta} J(\theta)$

的表示式，可以得到：

$\nabla_{\theta} J(\theta)=E_{\tau \sim p_{\theta}(\tau)}\left[\left(\sum_{t} \nabla_{\theta} \log \pi_{\theta}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right)\left(\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right)\right] \\$

透過抽取樣本軌跡

$\tau \sim p_{\theta}(\tau)$

，用蒙特卡洛平均值來估計這個期望值：

$\nabla_{\theta} J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N}\left(\sum_{t} \nabla_{\theta} \log \pi_{\theta}\left(\mathbf{a}_{i, t} \mid \mathbf{s}_{i, t}\right)\right)\left(\sum_{t} r\left(\mathbf{s}_{i, t}, \mathbf{a}_{i, t}\right)\right) \\$

現在可以透過執行梯度上升法來更新

$\theta$

的估計：

$\theta \leftarrow \theta+\alpha \nabla_{\theta} J(\theta) \\$

很明顯，更新規則試圖提高總回報較高軌跡的權重（因為

$\sum_{t} r\left(\mathbf{s}_{i, t}, \mathbf{a}_{i, t}\right.$

）較高），並抑制那些總回報較低的軌跡（因為

$\sum_{t} r\left(\mathbf{s}_{i, t}, \mathbf{a}_{i, t}\right)$

較低）。

將所有步驟放在一起，我們就有了REINFORCE演算法：

Value Based Reinforcement Learning

我們可以學習最優價值函式，並從中檢索最佳策略，而不是學習強化學習代理的策略。如果我們得到

$Q^{*}(s, a) \forall s, a$

的值，我們可以得到最優策略為

$\pi(a \mid s)=\delta\left(a=\operatorname{argmax}_{a^{\prime}} Q\left(s, a^{\prime}\right)\right)$

。

策略迭代

策略迭代分兩步進行。第一步，策略評估，使用bellman更新迭代評估策略

$Q_{\pi}$

函式。

$\begin{gathered} Q_{\pi}(s, a) \leftarrow r(s, a)+\sum_{s^{\prime}} \gamma p\left(s^{\prime} \mid s, a\right) V\left(s^{\prime}\right) \\ \equiv Q_{\pi}(s, a) \leftarrow r(s, a)+\sum_{s^{\prime}} \gamma p\left(s^{\prime} \mid s, a\right) \sum_{a^{\prime}} \pi\left(a^{\prime} \mid s^{\prime}\right) Q_{\pi}\left(s^{\prime}, a^{\prime}\right) \end{gathered} \\$

第二步是貪婪地更新策略，採取具有最高

$Q_{\pi}$

值的行動。

策略改進步驟保證至少和當前策略一樣好。這可以直觀地理解為以下幾點。假設我們在第一步採取了

$a_{1}=\operatorname{argmax}_{a}\left(Q_{\pi}(s, a)\right)$

的行動，並依照策略

$\pi$

。這樣做比從一開始就遵循政策

$\pi$

要好，或者至少是一樣好，因為我們採取了具有最高

$Q_{\pi}$

值的行動。然後，當我們從

$s_{1}$

轉移到狀態

$s_{2}$

時，我們可以擴充套件這個論點。也就是說，我們選擇行動

$a_{2}$

。從狀態

$s_{2}$

選擇行動

$a_{1}=\operatorname{argmax}_{a}\left(Q_{\pi}(s, a)\right)$

，並從那裡開始遵循策略

$\pi$

。同樣地，在每一步跟隨更新的策略，保證至少與當前策略一樣好。

上圖顯示了策略迭代。策略驗證步驟評估了正確的價值函式。對策略的貪婪更新改善了策略，但價值函式不再正確。經過多個迭代步驟，這兩個步驟都收斂到了真實值。

價值迭代

我們是否有辦法避免明確表示策略，而只根據價值函式進行強化學習。我們可以將策略評估和策略改進步驟合併為一個步驟。

在bellman更新中，我們用

$\max _{a^{\prime}} Q\left(s^{\prime}, a^{\prime}\right)$

代替

$V\left(s^{\prime}\right)$

由於替換，我們可以用價值函式來表示更新方程。策略迭代和價值迭代之間有一個關鍵區別。策略迭代對

值進行多步更新，直到收斂，然後對策略進行一次貪婪的更新。價值迭代對策略的每一次貪婪更新都做一次價值函式的更新。

擬合Q迭代

策略迭代和價值迭代只適用於小規模的離散狀態空間。對於一個有

狀態和每個狀態有

行動的環境，我們需要儲存和更新

$S\times A$

值。

對於大的或連續的狀態空間，我們可以用一個引數為

$\theta$

的函式近似器來近似值函式

。我們可以使誤差最小化：

$\begin{aligned} &\min _{\theta} \mathbb{E}_{a \sim \pi}\left\|Q^{\theta}(s, a)-y\right\| \\ &\text { 其中, } y=\left(r(s, a)+\gamma \max _{a^{\prime}} Q^{\theta}\left(s^{\prime}, a^{\prime}\right)\right) \end{aligned} \\$

這裡

$\pi(a \mid s)=\delta\left(a=\operatorname{argmax}_{a^{\prime}} Q\left(s, a^{\prime}\right)\right)$

。我們可以用隨機梯度下降法使這個目標最小化。在更新引數時，我們不考慮目標相對於引數

$\Theta$

的梯度。我們可以像在策略迭代中一樣對策略進行貪婪的更新。在實踐中，擬合Q-learning非常不穩定。

soft策略梯度和soft Q-學習

soft策略梯度寫為：

$\begin{aligned} J(\theta) &=\sum_{t=1}^{T} \mathbb{E}_{\left(s_{t}, a_{t}\right) \sim p\left(s_{t}, a_{t}\right)}\left[r\left(s_{t}, a_{t}\right)\right]+\mathbb{E}_{s_{t} \sim p\left(s_{t}\right)}\left[\mathcal{H}\left(\pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)\right] \\ &=\sum_{t=1}^{T} \mathbb{E}_{\left(s_{t}, a_{t}\right) \sim p_{\theta}\left(s_{t}, a_{t}\right)}\left[r\left(s_{t}, a_{t}\right)-\log \left(\pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)\right] \end{aligned} \\$

為了計算第二項的梯度，我們使用軌跡的期望計算：

$\begin{aligned} & \nabla_{\theta} \sum_{t=1}^{T} \mathbb{E}_{\left(s_{t}, a_{t}\right) \sim p_{\theta}\left(s_{t}, a_{t}\right)}\left[\log \left(\pi\left(a_{t} \mid s_{t}\right)\right)\right] \\ & =\int \nabla_{\theta}\left[p(\tau) \sum_{t=1}^{T} \log \left(\pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)\right] d \tau \\ & =\int\left[\nabla_{\theta} p(\tau) \sum_{t=1}^{T} \log \left(\pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)+p(\tau) \nabla_{\theta} \sum_{t=1}^{T} \log \left(\pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)\right] d \tau \quad \text { (鏈式法則) } \\ & =\int\left[p(\tau) \nabla_{\theta} \log p(\tau) \sum_{t=1}^{T} \log \left(\pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)+p(\tau) \sum_{t=1}^{T} \nabla_{\theta} \log \left(\pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)\right] d \tau \\ & =\int p(\tau) \nabla_{\theta} \log (p(\tau))\left[\sum_{t=1}^{T} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)+1\right] d \tau \end{aligned} \\$

從RL中的後向資訊來看

$\begin{aligned} Q_{t}\left(s_{t}, a_{t}\right) &=\log \left(\beta_{t}\left(s_{t}, a_{t}\right)\right)=r\left(s_{t}, a_{t}\right)+\log \left(\mathbb{E}_{s_{t+1} \sim p\left(s_{t+1}, a_{t+1}\right)}\left[\exp \left(V_{t+1}\left(s_{t+1}\right)\right)\right]\right) \\ V_{t}\left(s_{t}\right) &=\log \left(\beta_{t}\left(s_{t}\right)\right)=\log \left(\int \exp \left(Q_{t}\left(s_{t}, a_{t}\right)\right) d a_{t}\right) \end{aligned} \\$

從這兩個方程中，可得

$\pi\left(a_{t} \mid s_{t}\right)=\frac{\beta_{t}\left(s_{t}, a_{t}\right)}{\beta_{t}\left(s_{t}\right)}=\exp \left(Q_{t}\left(s_{t}, a_{t}\right)-V\left(s_{t}\right)\right) \\$

為了擺脫的

$p(\tau)$

項，我們用

次抽樣軌跡對其進行近似。展開soft策略梯度並對引數

$\theta$

求導，得到：

$\begin{aligned} \nabla_{\theta} J(\theta) &=\nabla_{\theta} \sum_{t=1}^{T} \mathbb{E}_{\left(s_{t}, a_{t}\right) \sim p_{\theta}\left(s_{t}, a_{t}\right)}\left[r\left(s_{t}, a_{t}\right)-\log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right] \\ & \approx \frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\left[r\left(s_{t}, a_{t}\right)+\left(\sum_{t^{\prime}=t+1}^{T} r\left(s_{t^{\prime}}, a_{t^{\prime}}\right)-\log \left(\pi_{\theta}\left(a_{t^{\prime}} \mid s_{t^{\prime}}\right)\right)\right)-\log \left(\pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)-1\right] \\ &=\frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T}\left(\nabla_{\theta} Q_{\theta}\left(s_{t}, a_{t}\right)-\nabla_{\theta} V_{\theta}\left(s_{t}\right)\right)\left[r\left(s_{t}, a_{t}\right)+Q_{\theta}\left(s_{t+1}, a_{t+1}\right)-Q_{\theta}\left(s_{t}, a_{t}\right)+V\left(s_{t}\right)\right] \end{aligned} \\$

由於括號內包含

$t^{\prime}$

的項成為

$Q_{\theta}\left(s_{t+1}, a_{t+1}\right)$

。展開與

$V_{\theta}$

有關的項，我們得到：

$\begin{aligned} &=\frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T}\left(\nabla_{\theta} Q_{\theta}\left(s_{t}, a_{t}\right)-\nabla_{\theta} V_{\theta}\left(s_{t}\right)\right)\left[r\left(s_{t}, a_{t}\right)+Q_{\theta}\left(s_{t+1}, a_{t+1}\right)-Q_{\theta}\left(s_{t}, a_{t}\right)+V\left(s_{t}\right)\right] \\ &=\frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T} \nabla_{\theta} Q_{\theta}\left(s_{t}, a_{t}\right)\left[r\left(s_{t}, a_{t}\right)+\operatorname{softmax}_{a_{t+1}} Q_{\theta}\left(s_{t+1}, a_{t+1}\right)-Q_{\theta}\left(s_{t}, a_{t}\right)\right] \end{aligned} \\$

這個方程的結果與Q-learning更新非常相似：

$\theta \leftarrow \theta+\alpha \nabla_{\theta} Q_{\theta}(s, a)\left(r(s, a)+\gamma V\left(s^{\prime}\right)-Q_{\theta}(s, a)\right) \\$

其中價值函式

$V\left(s^{\prime}\right)$

定義為：

$V\left(s^{\prime}\right)=\log \int \exp \left(Q_{\theta}\left(s^{\prime}, a^{\prime}\right)\right) d a^{\prime} \\$

從技術上講，我們可以在Q函式的exp裡面新增一個溫度引數

$\beta$

，如exp

$\left(\frac{Q(s, a)}{\beta}\right)$

。較高的

$\beta$

值對應於更多的 “隨機 ”政策，

$\beta$

接近於0意味著較少的隨機性政策。

RL/控制作為推理

MDP作為圖模型

標準MDP的圖模型顯示下圖的左邊。狀態是一個馬爾可夫鏈，狀態和行動都是隨機變數。

在MDP中，一些轉換會得到高額的獎勵，我們希望提高高額獎勵的軌跡的權重，降低次優軌跡的權重。因此，我們用一個最佳化變數

$\mathcal{O}_{t}$

來增強圖模型，該變數是可觀察的，使其成為一個隱馬爾可夫過程。最佳化變數的條件分佈是

$p\left(\mathcal{O}_{t}=1 \mid s_{t}, a_{t}\right)=\exp \left(r\left(s_{t}, a_{t}\right)\right)$

。高獎勵意味著在時間點

上成為最優的機率很高。請注意，這裡我們假設獎勵滿足：

$p\left(\mathcal{O}_{t}=1 \mid s_{t}, a_{t}\right)$

是一個機率分佈。

為什麼最優性變數

$\mathcal{O}_{t}$

很重要？

輔助變數

$\mathcal{O}_{t}$

使我們能夠將獎勵資訊納入機率生成過程，以便對軌跡進行取樣。我們可以在這個隱馬爾科夫模型中使用機率推理演算法解決控制和規劃問題。

它允許我們以機率方式指定一個最佳行為的模型，這對逆向RL很重要。

還解釋為什麼隨機行為可能是首選（對於解釋和轉移學習的觀點）。

鑑於圖模型，我們可以

給出一個獎勵，確定一個軌跡成為最優的可能性有多大。在數學上，我們可以計算出

$p\left(\tau,\mathcal{O}_{1: T}\right)$

，即一個軌跡

$\tau$

在整個軌跡中表現為最優的機率。

$\begin{aligned} p\left(\tau, \mathcal{O}_{1: T}\right) & \propto p\left(s_{1}\right) \prod_{t=1}^{T} p\left(a_{t} \mid s_{t}\right) p\left(s_{t+1} \mid s_{t}, a_{t}\right) p\left(\mathcal{O}_{t} \mid s_{t}, a_{t}\right) \\ &=p\left(s_{1}\right) \prod_{t=1}^{T} p\left(s_{t+1} \mid s_{t}, a_{t}\right) \exp \left(r\left(s_{t}, a_{t}\right)+\log p\left(a_{t} \mid s_{t}\right)\right) \\ &=\left[p\left(s_{1}\right) \prod_{t=1}^{T} p\left(s_{t+1} \mid s_{t}, a_{t}\right)\right] \exp \left(\sum_{t=1}^{T} r\left(s_{t}, a_{t}\right)+\log p\left(a_{t} \mid s_{t}\right)\right) \end{aligned} \\$

給定一個最優軌跡的集合，推斷出獎勵和先驗，這是一個逆向RL問題。

$\begin{aligned} p\left(\tau, \mathcal{O}_{1: T}, \theta, \phi\right) & \propto\left[p\left(s_{1}\right) \prod_{t=1}^{T} p\left(s_{t+1} \mid s_{t}, a_{t}\right)\right] \exp \left(\sum_{t=1}^{T} r_{\phi}\left(s_{t}, a_{t}\right)+\log p_{\theta}\left(a_{t} \mid s_{t}\right)\right) \\ &=\left[p\left(s_{1}\right) \prod_{t=1}^{T} p\left(s_{t+1} \mid s_{t}, a_{t}\right)\right] \exp \left(\sum_{t=1}^{T} \phi^{T} f_{r}\left(s_{t}, a_{t}\right)+\log \theta^{T} f_{p}\left(a_{t} \mid s_{t}\right)\right) \end{aligned} \\$

該問題是一個特徵化的CRF。透過恢復引數化的勢能函式

$f_{r}$

和

$f_{p}$

，我們可以學習從軌跡中恢復的獎勵。請注意，CRF是無向的，不具有因果結構；這種模型的限制性更強，被稱為MEMM。

給定獎勵，透過計算

$p\left(a_{t} \mid s_{t}, \mathcal{O}_{t: T}\right) .$

現在我們可以不解決最佳化問題，而是解決推斷問題。

透過推理實現最優策略

現在我們的目標是透過標準的訊息傳遞演算法推斷出最優策略

$p\left(\mathbf{s}_{t} \mid \mathbf{a}_{t}, \mathcal{O}_{t: T}\right)$

。只要計算出

$\beta_{t}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=p\left(\mathcal{O}_{t: T} \mid\mathbf{s}_{t}, \mathbf{a}_{t}\right)$

，表示從

的狀態和行動開始，從

到

的最優軌跡的機率。我們還引入了

$\beta_{t}\left(\mathbf{s}_{t}\right)=p\left(\mathcal{O}_{t: T} \mid \mathbf{s}_{t}\right)$

資訊。然後可以遞迴地計算這些：

$\begin{aligned} \beta_{t}\left(\mathbf{s}_{t}\right) &=p\left(\mathcal{O}_{t: T} \mid \mathbf{s}_{t}\right)=\int_{\mathcal{A}} p\left(\mathcal{O}_{t: T} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) p\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right) d \mathbf{a}_{t}=\int_{\mathcal{A}} \beta_{t}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) p\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right) d \mathbf{a}_{t} \\ \beta_{t}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) &=p\left(\mathcal{O}_{t: T} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)=\int_{\mathcal{A}} \beta_{t+1}\left(\mathbf{s}_{t+1}\right) p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) p\left(\mathcal{O}_{t} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) d \mathbf{s}_{t+1} \end{aligned} \\$

那麼，最佳行動分佈可以透過兩個後向資訊得出：

$\begin{aligned} & \pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right):=p\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}, \mathcal{O}_{t: T}\right)=\frac{p\left(\mathbf{s}_{t}, \mathbf{a}_{t} \mid \mathcal{O}_{t: T}\right)}{p\left(\mathbf{s}_{t} \mid \mathcal{O}_{t: T}\right)}=\frac{p\left(\mathbf{s}_{t}, \mathbf{a}_{t}, \mathcal{O}_{t: T}\right)}{p\left(\mathbf{s}_{t}, \mathcal{O}_{t: T}\right)}=\frac{p\left(\mathcal{O}_{t: T} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) p\left(\mathbf{s}_{t}\right) p\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)}{p\left(\mathcal{O}_{t: T} \mid \mathbf{s}_{t}\right) p\left(\mathbf{s}_{t}\right)} \\ & \propto \frac{p\left(\mathcal{O}_{t: T} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)}{p\left(\mathcal{O}_{t: T} \mid \mathbf{s}_{t}\right)}=\frac{\beta_{t}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)}{\beta_{t}\left(\mathbf{s}_{t}\right)} \end{aligned} \\$

然後，最佳行動分佈可以透過兩個後向資訊得出這裡我們假設行動先驗是一個均勻分佈

$p\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)=1 /|\mathcal{A}|$

。

然後，我們引入對數空間的資訊：

$\begin{aligned} Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) &=\log \beta_{t}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) \\ V\left(\mathbf{s}_{t}\right) &=\log \beta_{t}\left(\mathbf{s}_{t}\right) \\ \pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right) & \propto \exp \left(Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-V\left(\mathbf{s}_{t}\right)\right)=\exp \left(A_{t}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right) \end{aligned} \\$

實際上，對數資訊

對應於軟版的狀態行動和狀態價值函式。行動分佈與優勢值（advantage value）成正比。此外，我們可以推匯出

的以下關係：

$\begin{aligned} V\left(\mathbf{s}_{t}\right) &=\log \int_{\mathcal{A}} \exp \left(Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right) d \mathbf{a}_{t} \approx \max _{\mathbf{a}_{t}} Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) \\ Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) &=\log p\left(\mathcal{O}_{t} \mid \mathbf{a}_{t}, \mathbf{s}_{t}\right)+\log \int \beta_{t+1}\left(\mathbf{s}_{t+1}\right) p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) d \mathbf{s}_{t+1}=r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\log \mathbb{E}_{\mathbf{s}_{t+1}}\left[\exp \left(V\left(\mathbf{s}_{t+1}\right)\right]\right. \end{aligned} \\$

因此，

可以被看作是

的軟最大值。當動態是確定的，第二個關係正是貝爾曼方程的備份（backup）：

$Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+V\left(\mathbf{s}_{t+1}\right) \\$

然而，當動態是隨機的，更新是樂觀的，因為它將主要由下一個狀態的最大值決定，這就產生了尋求風險的行為。這個問題將在下一節透過變分推理得到緩解。總之，在PGM的基礎上增加了最佳化變數，我們將最優控制簡化為類似HMM模型的推理，並將其與動態規劃、RL的值迭代聯絡起來。

與變分推斷的聯絡

推理最佳化目標

回顧一下，最優軌跡分佈：

$p(\tau) \propto\left[p\left(\mathbf{s}_{1}\right) \prod_{t=1}^{T} p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] \exp \left(\sum_{t=1}^{T} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right) \\$

現在我們的目標是最佳化一個近似策略，使之與這個策略分佈相閉。策略為

$\pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)$

，那麼它在確定性動力學下的軌跡分佈（其中

$\left.p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}, \mathcal{O}_{t: T}\right)=p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)\right)$

：

$\begin{aligned} \hat{p}(\tau) &=p\left(\mathbf{s}_{1} \mid \mathcal{O}_{1: T}\right) \prod_{t=1}^{T} p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}, \mathcal{O}_{t: T}\right) \pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right) \\ &=p\left(\mathbf{s}_{1} \mid \mathcal{O}_{1: T}\right) \prod_{t=1}^{T} p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) \pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right) \end{aligned} \\$

精確推理下

$D_{K L}(\hat{p}(\tau) \| p(\tau))=0$

。因此，我們可以把最佳化目標看作是最大化負

$\mathrm{KL}$

散度：

$\begin{aligned} \max _{\pi} &-D_{K L}(\hat{p}(\tau)|| p(\tau)) \\ &=\mathbb{E}_{\tau \sim \hat{p}}[\log p(\tau)-\log \hat{p}(\tau)] \\ &=\mathbb{E}_{\tau \sim \hat{p}}\left[\log \frac{p\left(\mathbf{s}_{1}\right)}{p\left(\mathbf{s}_{1}\right)}+\sum_{t=1}^{T} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\log \pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)+\log \frac{p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)}{p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)}\right]\\ &=\mathbb{E}_{\tau \sim \hat{p}}\left[\sum_{t=1}^{T} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\log \pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right] \\ &=\sum_{t=1}^{T} \mathbb{E}_{\mathbf{s}, \mathbf{a} \sim \hat{p}}\left[r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\log \pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right] \\ &=\sum_{t=1}^{T} \mathbb{E}_{\mathbf{s}, \mathbf{a} \sim \hat{p}}\left[r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right]+\mathbb{E}_{\mathbf{s} \sim \hat{p}}\left[\mathcal{H}\left(\pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right)\right] \end{aligned} \\$

現在，在確定性條件下的動態為-

$Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+V\left(\mathbf{s}_{t+1}\right)$

而在隨機條件下的動態則為 -

$Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\log E_{\mathbf{s}_{t+1} \sim p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)}\left[\exp \left(V\left(\mathbf{s}_{t+1}\right)\right)\right]$

這裡，我們想問的不是樂觀項（它假定如果任何一個未來狀態有高回報，而不考慮導致該狀態的中間狀態，那麼指數項將只有利於該高回報狀態），而是鑑於過去獲得了高回報，在轉移機率沒有改變的情況下，行動機率是多少？

變分推斷進行控制

為了解決上述問題，我們將使用變分推斷，其目標是找到

$q\left(s_{1: T}, a_{1: T}\right)$

，使其接近

$p\left(s_{1: T}, a_{1: T} \mid \mathcal{O}_{1: T}\right)$

，同時動態保持在

$p\left(s_{t+1} \mid s_{t}, a_{t}\right)$

。

最佳軌跡的分佈為

$p(\tau)=\left[p\left(\mathbf{s}_{1}\right) \prod_{t=1}^{T} p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] \exp \left(\sum_{t=1}^{T} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right)$

策略產生分佈為

$q(\tau)=q\left(\mathbf{s}_{1}\right) \prod_{t=1}^{T} p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) q\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)$

因此，我們可以計算ELBO：

$\begin{aligned} \log \mathrm{p}\left(\mathcal{O}_{1: \mathrm{T}}\right) &=\log \iint \mathrm{p}\left(\mathcal{O}_{1: \mathrm{T}}, \mathbf{s}_{1: \mathrm{T}}, \mathbf{a}_{1: \mathrm{T}}\right) \mathrm{d} \mathbf{s}_{1: \mathrm{T}} \mathrm{d} \mathbf{a}_{1: \mathrm{T}} \\ &=\log \iint \operatorname{p}\left(\mathcal{O}_{1: \mathrm{T}}, \mathbf{s}_{1: \mathrm{T}}, \mathbf{a}_{1: \mathrm{T}}\right) \frac{\mathrm{q}\left(\mathbf{s}_{1: \mathrm{T}}, \mathbf{a}_{1: \mathrm{T}}\right)}{\mathrm{q}\left(\mathbf{s}_{1: T}, \mathbf{a}_{1: T}\right)} \mathrm{d}_{1: \mathrm{T}} \mathrm{d} \mathbf{a}_{1: T} \\ &=\log \mathbb{E}_{\left(\mathbf{s}_{1: T}, \mathbf{a}_{1: T}\right) \sim \mathbf{q}\left(\mathbf{s}_{1: T}, \mathbf{a}_{1: T}\right)}\left[\frac{p\left(\mathcal{O}_{1: T}, \mathbf{s}_{1: T}, \mathbf{a}_{1: T}\right)}{q\left(\mathbf{s}_{1: T}, \mathbf{a}_{1: T}\right)}\right] \\ & \geq \mathbb{E}_{\left(\mathrm{s}_{1}\right)}\left[\log \mathrm{p}\left(\mathcal{O}_{1: \mathrm{T}}, \mathbf{s}_{1: \mathrm{T}}, \mathbf{a}_{1: \mathrm{T}}\right)-\log \mathrm{q}\left(\mathbf{s}_{1: \mathrm{T}}, \mathbf{a}_{1: \mathrm{T}}\right)\right] \\ &=\mathbb{E}_{\tau \sim q}\left[\sum_{t=1}^{T} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\log q\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right] \\ &=\sum_{t=1}^{T} \mathbb{E}_{\left(s_{t}, \mathbf{a}_{t}\right) \sim q}\left[\mathbf{r}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right]+H\left(\mathbf{q}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right) \end{aligned} \\$

對可觀察變數的對數機率使用Jensen不等式計算ELBO。現在的目標由兩部分組成的，就像確定性的情況一樣，但在變分分佈方面。第一個專案是由變分策略導致收益的期望，第二個專案是變分策略的熵。現在，為了得到最優政策，有

$\begin{gathered} q\left(\mathbf{s}_{1: T}, \mathbf{a}_{1: T}\right)=p\left(\mathbf{s}_{1}\right) \Pi_{t} p\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right) q\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right) \\ \log p\left(\mathcal{O}_{1: T}\right) \geq \sum_{t} E_{\left(\mathfrak{s}_{t}, \mathbf{a}_{t}\right) \sim q}\left[r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\mathcal{H}\left(q\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right)\right] \end{gathered} \\$

進一步求解，有

$\begin{gathered} q\left(\mathbf{a}_{T} \mid \mathbf{s}_{T}\right)=\arg \max E_{\mathbf{s}_{T} \sim q\left(\mathbf{s}_{T}\right)}\left[E_{\mathbf{a}_{T} \sim q\left(\mathbf{a}_{T} \mid \mathbf{s}_{T}\right)}\left[r\left(\mathbf{s}_{T}, \mathbf{a}_{T}\right)\right]+\mathcal{H}\left(q\left(\mathbf{a}_{T} \mid \mathbf{s}_{T}\right)\right)\right] \\ \arg \max E_{\mathbf{s}_{T} \sim q\left(\mathbf{s}_{T}\right)}\left[E_{\mathbf{a}_{T} \sim q\left(\mathbf{a}_{T} \mid \mathbf{s}_{T}\right)}\left[r\left(\mathbf{s}_{T}, \mathbf{a}_{T}\right)-\log q\left(\mathbf{a}_{T} \mid \mathbf{s}_{T}\right)\right]\right] \end{gathered} \\$

當

$q\left(\mathbf{a}_{T} \mid \mathbf{s}_{T}\right) \propto \exp \left(r\left(\mathbf{s}_{T}, \mathbf{a}_{T}\right)\right)$

時有最小值

$q\left(\mathbf{a}_{T} \mid \mathbf{s}_{T}\right)=\frac{\exp \left(r\left(\mathbf{s}_{T}, \mathbf{a}_{T}\right)\right)}{\int \exp \left(r\left(\mathbf{s}_{T}, \mathbf{a}\right)\right) d \mathbf{a}}=\exp \left(Q\left(\mathbf{s}_{T}, \mathbf{a}_{T}\right)-V\left(\mathbf{s}_{T}\right)\right) \\$

價值函式為：

$V\left(\mathbf{s}_{T}\right)=\log \int \exp \left(Q\left(\mathbf{s}_{T}, \mathbf{a}_{T}\right)\right) d \mathbf{a}_{T} \\$

參考文獻

Reinforcement learning and control as probabilistic inference： Tutorial and review Levine， S。， 2018。 arXiv preprint arXiv：1805。00909。

標簽：策略函式我們軌跡最優

上一篇:一群“獨角獸”真的來了！誰將成妖？

下一篇：蟑螂怎麼解決?

機率圖模型(六)：強化學習機率推斷

猜你喜歡

掃碼支付吃個煎餅，街邊攤支付的背後也要有大資料運營

【解題研究】多參絕對值——兩邊夾

機器人學——學習筆記18(Minpulator Traj Planning Example）

高鐵上遇到沒素質的孩子有什麼最優解嗎？

拋開貪心演算法，來談談變數分箱這件"小事"