Skip to content

Commit

Permalink
更新习题解答
Browse files Browse the repository at this point in the history
  • Loading branch information
johnjim0816 committed Sep 11, 2023
1 parent 8f776d7 commit 61e7851
Show file tree
Hide file tree
Showing 3 changed files with 24 additions and 5 deletions.
8 changes: 6 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -39,15 +39,15 @@
| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) | |

## 贡献者
## 主要贡献者

<table border="0">
<tbody>
<tr align="center" >
<td>
<a href="https://github.com/JohnJim0816"><img width="70" height="70" src="https://github.com/JohnJim0816.png?s=40" alt="pic"></a><br>
<a href="https://github.com/JohnJim0816">John Jim</a>
<p>教程设计与算法实战<br> 北京大学硕士</p>
<p>教程设计与算法实战<br> 北京大学硕士<br> 网易伏羲算法工程师 </p>
</td>
<td>
<a href="https://github.com/qiwang067"><img width="70" height="70" src="https://github.com/qiwang067.png?s=40" alt="pic"></a><br>
Expand All @@ -63,6 +63,10 @@
</tbody>
</table>

## 特别感谢

* 协助编辑与校对。[@AzulaFire](https://github.com/limafang)

## 关注我们

扫描下方二维码关注公众号:Datawhale,回复关键词“强化学习”,即可加入“EasyRL & JoyRL 读者交流群”
Expand Down
8 changes: 6 additions & 2 deletions docs/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -39,15 +39,15 @@
| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) | |

## 贡献者
## 主要贡献者

<table border="0">
<tbody>
<tr align="center" >
<td>
<a href="https://github.com/JohnJim0816"><img width="70" height="70" src="https://github.com/JohnJim0816.png?s=40" alt="pic"></a><br>
<a href="https://github.com/JohnJim0816">John Jim</a>
<p>教程设计与算法实战<br> 北京大学硕士</p>
<p>教程设计与算法实战<br> 北京大学硕士<br> 网易伏羲算法工程师 </p>
</td>
<td>
<a href="https://github.com/qiwang067"><img width="70" height="70" src="https://github.com/qiwang067.png?s=40" alt="pic"></a><br>
Expand All @@ -63,6 +63,10 @@
</tbody>
</table>

## 特别感谢

* 协助编辑与校对。[@AzulaFire](https://github.com/limafang)

## 关注我们

扫描下方二维码关注公众号:Datawhale,回复关键词“强化学习”,即可加入“EasyRL & JoyRL 读者交流群”
Expand Down
13 changes: 12 additions & 1 deletion docs/appendix/main.md
Original file line number Diff line number Diff line change
Expand Up @@ -102,6 +102,17 @@ $\qquad$ 答: $\varepsilon-\text{greedy}$ 策略是一种基于概率的探索
### 第 9 章 练习题

1. 基于价值和基于策略的算法各有什么优缺点?

$\qquad$ 答:前者的优点有:**简单易用**:通常只需要学习一个值函数,往往收敛性也会更好。保守更新:更新策略通常是隐式的,通过更新价值函数来间接地改变策略,这使得学习可能更加稳定。缺点有:**受限于离散动作**;**可能存在多个等价最优策略**:当存在多个等效的最优策略时,基于价值的方法可能会在它们之间不停地切换。后者的优点有:直接优化策略:由于这些算法直接操作在策略上,所以它们可能更容易找到更好的策略;适用于连续动作空间;**更高效的探索**:通过调整策略的随机性,基于策略的方法可能会有更高效的探索策略。缺点有:**高方差**:策略更新可能会带来高方差,这可能导致需要更多的样本来学习。**可能会收敛到局部最优**:基于策略的方法可能会收敛到策略的局部最优,而不是全局最优,且收敛较缓慢。在实践中,还存在结合了基于价值和基于策略方法的算法,即 $\text{Actor-Critic}$ 算法,试图结合两者的优点来克服各自的缺点。选择哪种方法通常取决于具体的应用和其特点。

2. 马尔可夫平稳分布需要满足什么条件?

$\qquad$ 答:**状态连通性**:从任何一个状态可以在有限的步数内到达另一个状态;**非周期性**:由于马尔可夫链需要收敛,那么就一定不能是周期性的。

3. $\text{REINFORCE}$ 算法会比 $\text{Q-learning}$ 算法训练速度更快吗?为什么?
4. 确定性策略与随机性策略的区别?

$\qquad$ 答:两者的速度不能一概而论,尽管前者往往会比后者慢。主要考虑几个因素:**样本效率**:因为 $\text{REINFORCE}$ 算法是一个无偏的估计,但其方差可能很高,这意味着为了得到一个稳定和准确的策略更新,它可能需要与环境交互更多的样本,如果与环境交互的成本很高,$\text{REINFORCE}$ 算法将会显得更加劣势。**稳定性与收敛**:$\text{Q-learning}$ 和其他基于值的方法,特别是当与深度神经网络结合时,可能会遇到训练不稳定的问题。这可能会影响其训练速度。

4. 确定性策略与随机性策略的区别?

$\qquad$ 答:对于同一个状态,确定性策略会给出一个明确的、固定的动作,随机性策略则会为每一个可能的动作(legal action)提供一个概率分布。前者在训练中往往需要额外的探索策略,后者则只需要调整动作概率。但前者相对更容易优化,因为不需要考虑所有可能的动作,但也容易受到噪声的影响。后者则相对更加鲁棒,适用面更广,因为很多的实际问题中,我们往往无法得到一个确定的最优策略,而只能得到一个概率分布,尤其是在博弈场景中。

0 comments on commit 61e7851

Please sign in to comment.