From c9e0694b29d3a5b8978f6bf7ad12f3f12a1271ee Mon Sep 17 00:00:00 2001 From: johnjim0816 Date: Mon, 11 Sep 2023 15:07:08 +0800 Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0README?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 29 ++++++++++++++--------------- docs/README.md | 29 ++++++++++++++--------------- 2 files changed, 28 insertions(+), 30 deletions(-) diff --git a/README.md b/README.md index 3abcdc1..64111ef 100644 --- a/README.md +++ b/README.md @@ -24,24 +24,23 @@ | 章节 | 关键内容 | | :-------------------------------: | :--: | -| [第一章 绪论](https://johnjim0816.com/joyrl_book/#/ch1/main) | | -| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl_book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 | -| [第三章 动态规划](https://johnjim0816.com/joyrl_book/#/ch3/main) | 贝尔曼方程、策略迭代、价值迭代 | -| [第四章 免模型预测](https://johnjim0816.com/joyrl_book/#/ch4/main) | 蒙特卡洛、时序差分 | -| [第五章 免模型控制](https://johnjim0816.com/joyrl_book/#/ch5/main) | Q-learning 算法、Sarsa 算法 | -| [第六章 深度学习基础](https://johnjim0816.com/joyrl_book/#/ch6/main) | 神经网络、梯度下降 | -| [第七章 DQN算法](https://johnjim0816.com/joyrl_book/#/ch7/main) | DQN 算法、目标网络、经验回放 | -| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl_book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN | -| [第九章 策略梯度](https://johnjim0816.com/joyrl_book/#/ch9/main) | 随机性策略、REINFORCE | -| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl_book/#/ch10/main) | A2C、A3C | -| [第十一章 DDPG算法](https://johnjim0816.com/joyrl_book/#/ch11/main) | DDPG、TD3 | -| [第十二章 PPO算法](https://johnjim0816.com/joyrl_book/#/ch12/main) | 重要性采样、PPO | -| [第十三章 SAC算法](https://johnjim0816.com/joyrl_book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC | -| [练习题解答](https://johnjim0816.com/joyrl_book/#/appendix/main) | | +| [第一章 绪论](https://johnjim0816.com/joyrl-book/#/ch1/main) | | +| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl-book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 | +| [第三章 动态规划](https://johnjim0816.com/joyrl-book/#/ch3/main) | 贝尔曼方程、策略迭代、价值迭代 | +| [第四章 免模型预测](https://johnjim0816.com/joyrl-book/#/ch4/main) | 蒙特卡洛、时序差分 | +| [第五章 免模型控制](https://johnjim0816.com/joyrl-book/#/ch5/main) | Q-learning 算法、Sarsa 算法 | +| [第六章 深度学习基础](https://johnjim0816.com/joyrl-book/#/ch6/main) | 神经网络、梯度下降 | +| [第七章 DQN算法](https://johnjim0816.com/joyrl-book/#/ch7/main) | DQN 算法、目标网络、经验回放 | +| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl-book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN | +| [第九章 策略梯度](https://johnjim0816.com/joyrl-book/#/ch9/main) | 随机性策略、REINFORCE | +| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl-book/#/ch10/main) | A2C、A3C | +| [第十一章 DDPG算法](https://johnjim0816.com/joyrl-book/#/ch11/main) | DDPG、TD3 | +| [第十二章 PPO算法](https://johnjim0816.com/joyrl-book/#/ch12/main) | 重要性采样、PPO | +| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC | +| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) | | ## 贡献者 - diff --git a/docs/README.md b/docs/README.md index 3abcdc1..64111ef 100644 --- a/docs/README.md +++ b/docs/README.md @@ -24,24 +24,23 @@ | 章节 | 关键内容 | | :-------------------------------: | :--: | -| [第一章 绪论](https://johnjim0816.com/joyrl_book/#/ch1/main) | | -| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl_book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 | -| [第三章 动态规划](https://johnjim0816.com/joyrl_book/#/ch3/main) | 贝尔曼方程、策略迭代、价值迭代 | -| [第四章 免模型预测](https://johnjim0816.com/joyrl_book/#/ch4/main) | 蒙特卡洛、时序差分 | -| [第五章 免模型控制](https://johnjim0816.com/joyrl_book/#/ch5/main) | Q-learning 算法、Sarsa 算法 | -| [第六章 深度学习基础](https://johnjim0816.com/joyrl_book/#/ch6/main) | 神经网络、梯度下降 | -| [第七章 DQN算法](https://johnjim0816.com/joyrl_book/#/ch7/main) | DQN 算法、目标网络、经验回放 | -| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl_book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN | -| [第九章 策略梯度](https://johnjim0816.com/joyrl_book/#/ch9/main) | 随机性策略、REINFORCE | -| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl_book/#/ch10/main) | A2C、A3C | -| [第十一章 DDPG算法](https://johnjim0816.com/joyrl_book/#/ch11/main) | DDPG、TD3 | -| [第十二章 PPO算法](https://johnjim0816.com/joyrl_book/#/ch12/main) | 重要性采样、PPO | -| [第十三章 SAC算法](https://johnjim0816.com/joyrl_book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC | -| [练习题解答](https://johnjim0816.com/joyrl_book/#/appendix/main) | | +| [第一章 绪论](https://johnjim0816.com/joyrl-book/#/ch1/main) | | +| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl-book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 | +| [第三章 动态规划](https://johnjim0816.com/joyrl-book/#/ch3/main) | 贝尔曼方程、策略迭代、价值迭代 | +| [第四章 免模型预测](https://johnjim0816.com/joyrl-book/#/ch4/main) | 蒙特卡洛、时序差分 | +| [第五章 免模型控制](https://johnjim0816.com/joyrl-book/#/ch5/main) | Q-learning 算法、Sarsa 算法 | +| [第六章 深度学习基础](https://johnjim0816.com/joyrl-book/#/ch6/main) | 神经网络、梯度下降 | +| [第七章 DQN算法](https://johnjim0816.com/joyrl-book/#/ch7/main) | DQN 算法、目标网络、经验回放 | +| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl-book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN | +| [第九章 策略梯度](https://johnjim0816.com/joyrl-book/#/ch9/main) | 随机性策略、REINFORCE | +| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl-book/#/ch10/main) | A2C、A3C | +| [第十一章 DDPG算法](https://johnjim0816.com/joyrl-book/#/ch11/main) | DDPG、TD3 | +| [第十二章 PPO算法](https://johnjim0816.com/joyrl-book/#/ch12/main) | 重要性采样、PPO | +| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC | +| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) | | ## 贡献者 -