Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
johnjim0816 committed Aug 1, 2023
1 parent 4044689 commit e21d857
Show file tree
Hide file tree
Showing 7 changed files with 67 additions and 51 deletions.
58 changes: 36 additions & 22 deletions docs/ch10/main.md

Large diffs are not rendered by default.

46 changes: 23 additions & 23 deletions docs/ch11/main.md

Large diffs are not rendered by default.

2 changes: 1 addition & 1 deletion docs/ch2/main.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,7 +4,7 @@

## 马尔可夫决策过程

**马尔可夫决策过程Markov decision process,MDP)是强化学习的基本问题模型之一**,它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。举个例子,比如我们要学习弹钢琴,在这个过程中充当决策者和学习者的我们人本身就是智能体,而我们的交互主体即钢琴就是环境。当我们执行动作也就是弹的时候会观测到一些信息,例如琴键的位置等,这就是状态。此外当我们弹下去的时候会收到钢琴发出的声音,也就是反馈,我们通过钢琴发出的声音来判断自己弹得好不好然后反思并纠正下一次弹的动作。当然如果这时候有一个钢琴教师在旁边指导我们,那样其实钢琴和教师就同时组成了环境,我们也可以交互过程中接收教师的反馈来提高自己的钢琴水平。
**马尔可夫决策过程**( $\text{Markov decision process,MDP}$)是强化学习的基本问题模型之一,它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。举个例子,比如我们要学习弹钢琴,在这个过程中充当决策者和学习者的我们人本身就是智能体,而我们的交互主体即钢琴就是环境。当我们执行动作也就是弹的时候会观测到一些信息,例如琴键的位置等,这就是状态。此外当我们弹下去的时候会收到钢琴发出的声音,也就是反馈,我们通过钢琴发出的声音来判断自己弹得好不好然后反思并纠正下一次弹的动作。当然如果这时候有一个钢琴教师在旁边指导我们,那样其实钢琴和教师就同时组成了环境,我们也可以交互过程中接收教师的反馈来提高自己的钢琴水平。


<div align=center>
Expand Down
6 changes: 3 additions & 3 deletions docs/ch8/main.md
Original file line number Diff line number Diff line change
@@ -1,13 +1,13 @@
# DQN 算法进阶

本章开始介绍一些基于 DQN 改进的一些算法,由于本章的算法都是网络模型、经验回放等层面的改进,整体的训练模式跟 DQN 算法是一模一样的,因此出于简洁考虑,本章算法不再贴出对应的伪代码。另一方面来讲,建议读者在阅读本章之前,牢牢掌握 DQN 算法的原理。
本章开始介绍一些基于 $\text{DQN}$ 改进的一些算法,由于本章的算法都是网络模型、经验回放等层面的改进,整体的训练模式跟 $\text{DQN}$ 算法是一模一样的,因此出于简洁考虑,本章算法不再贴出对应的伪代码。另一方面来讲,建议读者在阅读本章之前,牢牢掌握 $\text{DQN}$ 算法的原理。
## Double DQN 算法

Double DQN 算法<sup>①</sup>是谷歌 DeepMind 于 2015 年 12 月提出的一篇解决 $Q$ 值过估计(overestimate)的论文。
$\text{Double DQN}$ 算法<sup>①</sup>是谷歌 DeepMind 于 2015 年 12 月提出的一篇解决 $Q$ 值过估计(overestimate)的论文。

> ① 论文链接:http://papers.neurips.cc/paper/3964-double-q-learning.pdf
回忆一下 DQN 算法的更新公式,如下:
回忆一下 $\text{DQN}$ 算法的更新公式,如下:
$$
Q(s_t,a_t) \leftarrow Q(s_t,a_t)+\alpha[r_t+\gamma\max _{a}Q^{\prime}(s_{t+1},a)-Q(s_t,a_t)]
$$
Expand Down
6 changes: 4 additions & 2 deletions docsify.md
Original file line number Diff line number Diff line change
Expand Up @@ -36,9 +36,11 @@ latex 公式显示问题

https://github.com/scruel/docsify-latex

## 编写注意事项
## 编写规范

不能在代码块里面加入`\`,否则会导致后面的公式不渲染
1. 不能在代码块里面加入`\`,否则会导致后面的公式不渲染
2. 英文和文中的数字用`$\text{}$`
3. 公式编号用`\tag{}`,公式和图表引用要在实际的公式和图表之前,便于阅读
### 参考

[docsify中文文档](https://jingping-ye.github.io/docsify-docs-zh/#/%E5%BF%AB%E9%80%9F%E4%B8%8A%E6%89%8B/%E5%BC%80%E5%A7%8B)
Binary file modified words/第2章 马尔可夫决策过程.docx
Binary file not shown.
Binary file added words/第5章 免模型控制.docx
Binary file not shown.

0 comments on commit e21d857

Please sign in to comment.