diff --git a/docs/ch6/main.md b/docs/ch6/main.md index 0ea3bb4..d89df90 100644 --- a/docs/ch6/main.md +++ b/docs/ch6/main.md @@ -1,5 +1,7 @@ # 深度学习基础 +$\qquad$ 在前面章节中我们主要介绍了传统强化学习的内容,这些内容涵盖了基础的问题核心和解决方法。但是对应的算法并不能解决高维度的复杂问题,因此现在普遍流行将深度学习和强化学习结合起来,利用深度学习网络强大的拟合能力通过将状态、动作等作为输入,来估计对应的状态价值和动作价值等等。 + 前面章节中都属于基础的强化学习内容,在后面的章节中我们主要讲解深度强化学习,在此之前会为读者介绍强化学习中涉及到的一些深度学习基础,以便有一个过渡。 ## 线性模型 diff --git a/docs/ch8/main.md b/docs/ch8/main.md index cb0167d..99402ed 100644 --- a/docs/ch8/main.md +++ b/docs/ch8/main.md @@ -1,5 +1,7 @@ # DQN 算法进阶 +$\qquad$ 本章将介绍一些基于 $\text{DQN}$ 改进的一些算法。这些算法改进的角度各有不同,例如 $\text{Double DQN}$ 以及 $\text{Dueling DQN}$ 等算法主要从网络模型层面改进,而 $\text{PER DQN}$ 则从经验回放的角度来改进 + 本章开始介绍一些基于 $\text{DQN}$ 改进的一些算法,由于本章的算法都是网络模型、经验回放等层面的改进,整体的训练模式跟 $\text{DQN}$ 算法是一模一样的,因此出于简洁考虑,本章算法不再贴出对应的伪代码。另一方面来讲,建议读者在阅读本章之前,牢牢掌握 $\text{DQN}$ 算法的原理。 ## Double DQN 算法 diff --git "a/words/\347\254\2545\347\253\240 \345\205\215\346\250\241\345\236\213\346\216\247\345\210\266.docx" "b/words/\347\254\2545\347\253\240 \345\205\215\346\250\241\345\236\213\346\216\247\345\210\266.docx" index e23ec8f..210f83e 100644 Binary files "a/words/\347\254\2545\347\253\240 \345\205\215\346\250\241\345\236\213\346\216\247\345\210\266.docx" and "b/words/\347\254\2545\347\253\240 \345\205\215\346\250\241\345\236\213\346\216\247\345\210\266.docx" differ