From c9e0694b29d3a5b8978f6bf7ad12f3f12a1271ee Mon Sep 17 00:00:00 2001
From: johnjim0816 <johnjim0816@gmail.com>
Date: Mon, 11 Sep 2023 15:07:08 +0800
Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0README?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 README.md      | 29 ++++++++++++++---------------
 docs/README.md | 29 ++++++++++++++---------------
 2 files changed, 28 insertions(+), 30 deletions(-)
diff --git a/README.md b/README.md
index 3abcdc1..64111ef 100644
--- a/README.md
+++ b/README.md
@@ -24,24 +24,23 @@
 
 |               章节                | 关键内容 |
 | :-------------------------------: | :--: |
-|       [第一章 绪论](https://johnjim0816.com/joyrl_book/#/ch1/main)       |  |
-| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl_book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
-|     [第三章 动态规划](https://johnjim0816.com/joyrl_book/#/ch3/main)     | 贝尔曼方程、策略迭代、价值迭代 |
-|    [第四章 免模型预测](https://johnjim0816.com/joyrl_book/#/ch4/main)    | 蒙特卡洛、时序差分 |
-|    [第五章 免模型控制](https://johnjim0816.com/joyrl_book/#/ch5/main)    | Q-learning 算法、Sarsa 算法 |
-| [第六章 深度学习基础](https://johnjim0816.com/joyrl_book/#/ch6/main) | 神经网络、梯度下降 |
-| [第七章 DQN算法](https://johnjim0816.com/joyrl_book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
-| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl_book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
-| [第九章 策略梯度](https://johnjim0816.com/joyrl_book/#/ch9/main) | 随机性策略、REINFORCE |
-| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl_book/#/ch10/main) | A2C、A3C |
-| [第十一章 DDPG算法](https://johnjim0816.com/joyrl_book/#/ch11/main) | DDPG、TD3 |
-| [第十二章 PPO算法](https://johnjim0816.com/joyrl_book/#/ch12/main) | 重要性采样、PPO |
-| [第十三章 SAC算法](https://johnjim0816.com/joyrl_book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
-| [练习题解答](https://johnjim0816.com/joyrl_book/#/appendix/main) |  |
+|       [第一章 绪论](https://johnjim0816.com/joyrl-book/#/ch1/main)       |  |
+| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl-book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
+|     [第三章 动态规划](https://johnjim0816.com/joyrl-book/#/ch3/main)     | 贝尔曼方程、策略迭代、价值迭代 |
+|    [第四章 免模型预测](https://johnjim0816.com/joyrl-book/#/ch4/main)    | 蒙特卡洛、时序差分 |
+|    [第五章 免模型控制](https://johnjim0816.com/joyrl-book/#/ch5/main)    | Q-learning 算法、Sarsa 算法 |
+| [第六章 深度学习基础](https://johnjim0816.com/joyrl-book/#/ch6/main) | 神经网络、梯度下降 |
+| [第七章 DQN算法](https://johnjim0816.com/joyrl-book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
+| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl-book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
+| [第九章 策略梯度](https://johnjim0816.com/joyrl-book/#/ch9/main) | 随机性策略、REINFORCE |
+| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl-book/#/ch10/main) | A2C、A3C |
+| [第十一章 DDPG算法](https://johnjim0816.com/joyrl-book/#/ch11/main) | DDPG、TD3 |
+| [第十二章 PPO算法](https://johnjim0816.com/joyrl-book/#/ch12/main) | 重要性采样、PPO |
+| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
+| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) |  |
 
 ## 贡献者
 
-
 <table border="0">
   <tbody>
     <tr align="center" >
diff --git a/docs/README.md b/docs/README.md
index 3abcdc1..64111ef 100644
--- a/docs/README.md
+++ b/docs/README.md
@@ -24,24 +24,23 @@
 
 |               章节                | 关键内容 |
 | :-------------------------------: | :--: |
-|       [第一章 绪论](https://johnjim0816.com/joyrl_book/#/ch1/main)       |  |
-| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl_book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
-|     [第三章 动态规划](https://johnjim0816.com/joyrl_book/#/ch3/main)     | 贝尔曼方程、策略迭代、价值迭代 |
-|    [第四章 免模型预测](https://johnjim0816.com/joyrl_book/#/ch4/main)    | 蒙特卡洛、时序差分 |
-|    [第五章 免模型控制](https://johnjim0816.com/joyrl_book/#/ch5/main)    | Q-learning 算法、Sarsa 算法 |
-| [第六章 深度学习基础](https://johnjim0816.com/joyrl_book/#/ch6/main) | 神经网络、梯度下降 |
-| [第七章 DQN算法](https://johnjim0816.com/joyrl_book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
-| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl_book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
-| [第九章 策略梯度](https://johnjim0816.com/joyrl_book/#/ch9/main) | 随机性策略、REINFORCE |
-| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl_book/#/ch10/main) | A2C、A3C |
-| [第十一章 DDPG算法](https://johnjim0816.com/joyrl_book/#/ch11/main) | DDPG、TD3 |
-| [第十二章 PPO算法](https://johnjim0816.com/joyrl_book/#/ch12/main) | 重要性采样、PPO |
-| [第十三章 SAC算法](https://johnjim0816.com/joyrl_book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
-| [练习题解答](https://johnjim0816.com/joyrl_book/#/appendix/main) |  |
+|       [第一章 绪论](https://johnjim0816.com/joyrl-book/#/ch1/main)       |  |
+| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl-book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
+|     [第三章 动态规划](https://johnjim0816.com/joyrl-book/#/ch3/main)     | 贝尔曼方程、策略迭代、价值迭代 |
+|    [第四章 免模型预测](https://johnjim0816.com/joyrl-book/#/ch4/main)    | 蒙特卡洛、时序差分 |
+|    [第五章 免模型控制](https://johnjim0816.com/joyrl-book/#/ch5/main)    | Q-learning 算法、Sarsa 算法 |
+| [第六章 深度学习基础](https://johnjim0816.com/joyrl-book/#/ch6/main) | 神经网络、梯度下降 |
+| [第七章 DQN算法](https://johnjim0816.com/joyrl-book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
+| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl-book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
+| [第九章 策略梯度](https://johnjim0816.com/joyrl-book/#/ch9/main) | 随机性策略、REINFORCE |
+| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl-book/#/ch10/main) | A2C、A3C |
+| [第十一章 DDPG算法](https://johnjim0816.com/joyrl-book/#/ch11/main) | DDPG、TD3 |
+| [第十二章 PPO算法](https://johnjim0816.com/joyrl-book/#/ch12/main) | 重要性采样、PPO |
+| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
+| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) |  |
 
 ## 贡献者
 
-
 <table border="0">
   <tbody>
     <tr align="center" >