Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
johnjim0816 committed Aug 29, 2023
1 parent 087149d commit 41f2b3f
Showing 1 changed file with 4 additions and 4 deletions.
8 changes: 4 additions & 4 deletions docs/ch10/main.md
Original file line number Diff line number Diff line change
@@ -1,15 +1,15 @@
# 第 10 章 Actor-Critic 算法

$\qquad$ 在策略梯度的章节中,实际上我们已经开了一部分 $\text{Actor-Critic}$ 算法的头了,这一章我们将继续深入探讨 $\text{Actor-Critic}$ 算法。
$\qquad$ 在策略梯度的章节中,实际上我们已经开了一部分 $\text{Actor-Critic}$ 算法的头了,本章我们将继续深入探讨 $\text{Actor-Critic}$ 算法。

## 10.1 策略梯度算法的缺点

$\qquad$ 这里策略梯度算法特指蒙特卡洛策略梯度算法,相比于 $\text{DQN}$ 之类的基于价值的算法,策略梯度算法有以下优点
$\qquad$ 这里策略梯度算法特指蒙特卡洛策略梯度算法,即 $\text{REINFORCE}$ 算法。 相比于 $\text{DQN}$ 之类的基于价值的算法,策略梯度算法有以下优点

* **适配连续动作空间**。在将策略函数设计的时候我们已经展开过,这里不再赘述。
* **适配随机策略**。由于策略梯度算法是基于策略函数的,因此可以适配随机策略,而基于价值的算法则需要一个确定的策略。此外其计算出来的策略梯度是无偏的,而基于价值的算法则是有偏的。

$\qquad$ 但同样的,策略梯度算法也有其缺点
$\qquad$ 但同样的,策略梯度算法也有其缺点

* **采样效率低**。由于使用的是蒙特卡洛估计,与基于价值算法的时序差分估计相比其采样速度必然是要慢很多的,这个问题在前面相关章节中也提到过。
* **高方差**。虽然跟基于价值的算法一样都会导致高方差,但是策略梯度算法通常是在估计梯度时蒙特卡洛采样引起的高方差,这样的方差甚至比基于价值的算法还要高。
Expand All @@ -31,7 +31,7 @@ tag{10.1}
\end{aligned}
$$

$\qquad$ 在 `REINFORCE` 算法中,我们使用蒙特卡洛估计来表示当前状态-动作对 $(s_t,a_t)$ 的价值。而这里其实可以类比于 $Q$ 函数,用 $Q^\pi(s_t, a_t)$ 来估计当前的价值,注意这里的输入是状态和动作,而不单单是状态,输出的是单个值,也可以用 $Q_{\phi}(s_t, a_t)$ 表示,其中 $\phi$ 表示 $\text{Critic}$ 网络的参数。这样我们就可以将目标函数写成如式 $\text(10.2)$ 所示的形式。
$\qquad$ 在 $\text{Actor-Critic}$ 算法中,我们使用蒙特卡洛估计来表示当前状态-动作对 $(s_t,a_t)$ 的价值。而这里其实可以类比于 $Q$ 函数,用 $Q^\pi(s_t, a_t)$ 来估计当前的价值,注意这里的输入是状态和动作,而不单单是状态,输出的是单个值,也可以用 $Q_{\phi}(s_t, a_t)$ 表示,其中 $\phi$ 表示 $\text{Critic}$ 网络的参数。这样我们就可以将目标函数写成如式 $\text(10.2)$ 所示的形式。

$$
tag{10.2}
Expand Down

0 comments on commit 41f2b3f

Please sign in to comment.