Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
johnjim0816 committed Aug 10, 2023
1 parent eae1941 commit 8fcc0b7
Show file tree
Hide file tree
Showing 13 changed files with 20 additions and 21 deletions.
28 changes: 14 additions & 14 deletions docs/ch1/main.md

Large diffs are not rendered by default.

9 changes: 5 additions & 4 deletions docs/ch2/main.md
Original file line number Diff line number Diff line change
@@ -1,18 +1,19 @@
# 马尔可夫决策过程

在绪论中我们了解到强化学习是解决序列决策问题的有效方法,而序列决策问题的本质是在与环境交互的过程中学习到一个目标的过程。在本章中,我们将介绍强化学习中最基本的问题模型,即马尔可夫决策过程(Markov decision process,MDP),它能够以数学的形式来表达序列决策过程。注意,本章开始包括后面的章节会涉及理论公式推导,建议读者在阅读之前先回顾一下概率论相关知识,尤其是条件概率、全概率期望公式等等。
$\qquad$ 在绪论中我们了解到强化学习是解决序列决策问题的有效方法,而序列决策问题的本质是在与环境交互的过程中学习到一个目标的过程。在本章中,我们将介绍强化学习中最基本的问题模型,即马尔可夫决策过程(Markov decision process,MDP),它能够以数学的形式来表达序列决策过程。注意,本章开始包括后面的章节会涉及理论公式推导,建议读者在阅读之前先回顾一下概率论相关知识,尤其是条件概率、全概率期望公式等等。

## 马尔可夫决策过程

**马尔可夫决策过程**( $\text{Markov decision process,MDP}$)是强化学习的基本问题模型之一,它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。举个例子,比如我们要学习弹钢琴,在这个过程中充当决策者和学习者的我们人本身就是智能体,而我们的交互主体即钢琴就是环境。当我们执行动作也就是弹的时候会观测到一些信息,例如琴键的位置等,这就是状态。此外当我们弹下去的时候会收到钢琴发出的声音,也就是反馈,我们通过钢琴发出的声音来判断自己弹得好不好然后反思并纠正下一次弹的动作。当然如果这时候有一个钢琴教师在旁边指导我们,那样其实钢琴和教师就同时组成了环境,我们也可以交互过程中接收教师的反馈来提高自己的钢琴水平。
$\qquad$ **马尔可夫决策过程**( $\text{Markov decision process,MDP}$)是强化学习的基本问题模型之一,它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。举个例子,比如我们要学习弹钢琴,在这个过程中充当决策者和学习者的我们人本身就是智能体,而我们的交互主体即钢琴就是环境。当我们执行动作也就是弹的时候会观测到一些信息,例如琴键的位置等,这就是状态。此外当我们弹下去的时候会收到钢琴发出的声音,也就是反馈,我们通过钢琴发出的声音来判断自己弹得好不好然后反思并纠正下一次弹的动作。当然如果这时候有一个钢琴教师在旁边指导我们,那样其实钢琴和教师就同时组成了环境,我们也可以交互过程中接收教师的反馈来提高自己的钢琴水平。

$\qquad$ 如图 $\text{2-1}$ 所示,它描述了马尔可夫决策过程中智能体与环境的交互过程。智能体每一时刻都会接收环境的状态,并执行动作,进而接收到环境反馈的奖励信号和下一时刻的状态。

<div align=center>
<img width="600" src="../figs/ch2/interaction_mdp.png"/>
</div>
<div align=center>图 2.1 马尔可夫决策过程中智能体与环境的交互过程</div>
<div align=center>图 $\text{2-1}$ 马尔可夫决策过程中智能体与环境的交互过程</div>

如图 2.1 所示,它描述了马尔可夫决策过程中智能体与环境的交互过程。确切地说,智能体与环境之间是在一系列**离散的时步** <sup>①</sup>( $\text{time step}$ )交互的,一般用 $t$ 来表示,$t=0,1,2,\cdots$<sup>②</sup>。在每个时步 $t$, 智能体会观测或者接收到当前环境的状态 $s_t$,根据这个状态 $s_t$ 执行动作 $a_t$。执行完动作之后会收到一个奖励 $r_{t+1}$<sup>③</sup>,同时环境也会收到动作 $a_t$ 的影响会变成新的状态 $s_{t+1}$,并且在 $t+1$时步被智能体观测到。如此循环下去,我们就可以在这个交互过程中得到一串轨迹,可表示为:
$\qquad$ 确切地说,智能体与环境之间是在一系列**离散的时步** <sup>①</sup>( $\text{time step}$ )交互的,一般用 $t$ 来表示,$t=0,1,2,\cdots$<sup>②</sup>。在每个时步 $t$, 智能体会观测或者接收到当前环境的状态 $s_t$,根据这个状态 $s_t$ 执行动作 $a_t$。执行完动作之后会收到一个奖励 $r_{t+1}$<sup>③</sup>,同时环境也会收到动作 $a_t$ 的影响会变成新的状态 $s_{t+1}$,并且在 $t+1$时步被智能体观测到。如此循环下去,我们就可以在这个交互过程中得到一串轨迹,可表示为:

$$
s_0,a_0,r_1,s_1,a_1,r_2,\cdots,s_t,a_t,r_{t+1},\cdots
Expand Down
4 changes: 1 addition & 3 deletions docs/ch3/main.md
Original file line number Diff line number Diff line change
@@ -1,8 +1,6 @@
# 动态规划

前面我们讲到马尔可夫决策过程是强化学习中的基本问题模型之一,而解决马尔可夫决策过程的方法我们统称为强化学习算法。本章开始讲强化学习中最基础的算法之一,动态规划(Dynamic Programming, DP)。动态规划其实并不是强化学习领域中独有的算法,它在数学、管理科学、经济学和生物信息学等其他领域都有广泛的应用。动态规划具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。实际上动态规划更像是一种通用的思路,而不是具体某个算法。在强化学习中,动态规划被用于求解值函数和最优策略。常见的动态规划算法包括值迭代(Value Iteration)、策略迭代(Policy Iteration)和 Q-learning 算法等等,

强化学习是一种通过最大化累积奖励来寻找最优行动策略的智能系统。而动态规划则是强化学习中一个重要的数学基础,可以用于求解具有马尔可夫决策过程特性的问题。动态规划(Dynamic Programming, DP)指在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。其中,策略迭代和价值迭代是基于基本迭代备份操作的方法,在状态空间较小也就是状态数较少时效果良好。而 Q-learning 则是基于样本学习的方法,可以处理包含高维状态空间的强化学习问题,而在 Q-learning 基础上通过引入深度学习形成的 DQN 算法则能够处理更加复杂的问题,具体会在后面的章节中展开。
前面我们讲到马尔可夫决策过程是强化学习中的基本问题模型之一,而解决马尔可夫决策过程的方法我们统称为强化学习算法。本章开始讲强化学习中最基础的算法之一,动态规划(Dynamic Programming, DP)。动态规划其实并不是强化学习领域中独有的算法,它在数学、管理科学、经济学和生物信息学等其他领域都有广泛的应用。动态规划具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。实际上动态规划更像是一种通用的思路,而不是具体某个算法。在强化学习中,动态规划被用于求解值函数和最优策略。常见的动态规划算法包括值迭代(Value Iteration)、策略迭代(Policy Iteration)和 Q-learning 算法等。

## 动态规划的编程思想

Expand Down
Binary file added words/第10章 Actor-Critic 算法.docx
Binary file not shown.
Binary file added words/第11章 DDPG 与 TD3 算法.docx
Binary file not shown.
Binary file added words/第12章 PPO 算法.docx
Binary file not shown.
Binary file added words/第13章 SAC 算法.docx
Binary file not shown.
Binary file added words/第1章 绪论.docx
Binary file not shown.
Binary file modified words/第2章 马尔可夫决策过程.docx
Binary file not shown.
Binary file modified words/第3章 动态规划.docx
Binary file not shown.
Binary file added words/第4章 免模型预测.docx
Binary file not shown.
Binary file added words/第7章 DQN 算法.docx
Binary file not shown.
Binary file added words/第8章 DQN 算法进阶.docx
Binary file not shown.

0 comments on commit 8fcc0b7

Please sign in to comment.