更新README

johnjim0816 · Sep 11, 2023 · c9e0694 · c9e0694
1 parent 0af90ff
commit c9e0694
Show file tree

Hide file tree

Showing 2 changed files with 28 additions and 30 deletions.
diff --git a/README.md b/README.md
@@ -24,24 +24,23 @@
 
 |               章节                | 关键内容 |
 | :-------------------------------: | :--: |
-|       [第一章 绪论](https://johnjim0816.com/joyrl_book/#/ch1/main)       |  |
-| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl_book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
-|     [第三章 动态规划](https://johnjim0816.com/joyrl_book/#/ch3/main)     | 贝尔曼方程、策略迭代、价值迭代 |
-|    [第四章 免模型预测](https://johnjim0816.com/joyrl_book/#/ch4/main)    | 蒙特卡洛、时序差分 |
-|    [第五章 免模型控制](https://johnjim0816.com/joyrl_book/#/ch5/main)    | Q-learning 算法、Sarsa 算法 |
-| [第六章 深度学习基础](https://johnjim0816.com/joyrl_book/#/ch6/main) | 神经网络、梯度下降 |
-| [第七章 DQN算法](https://johnjim0816.com/joyrl_book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
-| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl_book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
-| [第九章 策略梯度](https://johnjim0816.com/joyrl_book/#/ch9/main) | 随机性策略、REINFORCE |
-| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl_book/#/ch10/main) | A2C、A3C |
-| [第十一章 DDPG算法](https://johnjim0816.com/joyrl_book/#/ch11/main) | DDPG、TD3 |
-| [第十二章 PPO算法](https://johnjim0816.com/joyrl_book/#/ch12/main) | 重要性采样、PPO |
-| [第十三章 SAC算法](https://johnjim0816.com/joyrl_book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
-| [练习题解答](https://johnjim0816.com/joyrl_book/#/appendix/main) |  |
+|       [第一章 绪论](https://johnjim0816.com/joyrl-book/#/ch1/main)       |  |
+| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl-book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
+|     [第三章 动态规划](https://johnjim0816.com/joyrl-book/#/ch3/main)     | 贝尔曼方程、策略迭代、价值迭代 |
+|    [第四章 免模型预测](https://johnjim0816.com/joyrl-book/#/ch4/main)    | 蒙特卡洛、时序差分 |
+|    [第五章 免模型控制](https://johnjim0816.com/joyrl-book/#/ch5/main)    | Q-learning 算法、Sarsa 算法 |
+| [第六章 深度学习基础](https://johnjim0816.com/joyrl-book/#/ch6/main) | 神经网络、梯度下降 |
+| [第七章 DQN算法](https://johnjim0816.com/joyrl-book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
+| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl-book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
+| [第九章 策略梯度](https://johnjim0816.com/joyrl-book/#/ch9/main) | 随机性策略、REINFORCE |
+| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl-book/#/ch10/main) | A2C、A3C |
+| [第十一章 DDPG算法](https://johnjim0816.com/joyrl-book/#/ch11/main) | DDPG、TD3 |
+| [第十二章 PPO算法](https://johnjim0816.com/joyrl-book/#/ch12/main) | 重要性采样、PPO |
+| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
+| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) |  |
 
 ## 贡献者
 
-
 <table border="0">
   <tbody>
     <tr align="center" >

diff --git a/docs/README.md b/docs/README.md
@@ -24,24 +24,23 @@
 
 |               章节                | 关键内容 |
 | :-------------------------------: | :--: |
-|       [第一章 绪论](https://johnjim0816.com/joyrl_book/#/ch1/main)       |  |
-| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl_book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
-|     [第三章 动态规划](https://johnjim0816.com/joyrl_book/#/ch3/main)     | 贝尔曼方程、策略迭代、价值迭代 |
-|    [第四章 免模型预测](https://johnjim0816.com/joyrl_book/#/ch4/main)    | 蒙特卡洛、时序差分 |
-|    [第五章 免模型控制](https://johnjim0816.com/joyrl_book/#/ch5/main)    | Q-learning 算法、Sarsa 算法 |
-| [第六章 深度学习基础](https://johnjim0816.com/joyrl_book/#/ch6/main) | 神经网络、梯度下降 |
-| [第七章 DQN算法](https://johnjim0816.com/joyrl_book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
-| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl_book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
-| [第九章 策略梯度](https://johnjim0816.com/joyrl_book/#/ch9/main) | 随机性策略、REINFORCE |
-| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl_book/#/ch10/main) | A2C、A3C |
-| [第十一章 DDPG算法](https://johnjim0816.com/joyrl_book/#/ch11/main) | DDPG、TD3 |
-| [第十二章 PPO算法](https://johnjim0816.com/joyrl_book/#/ch12/main) | 重要性采样、PPO |
-| [第十三章 SAC算法](https://johnjim0816.com/joyrl_book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
-| [练习题解答](https://johnjim0816.com/joyrl_book/#/appendix/main) |  |
+|       [第一章 绪论](https://johnjim0816.com/joyrl-book/#/ch1/main)       |  |
+| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl-book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
+|     [第三章 动态规划](https://johnjim0816.com/joyrl-book/#/ch3/main)     | 贝尔曼方程、策略迭代、价值迭代 |
+|    [第四章 免模型预测](https://johnjim0816.com/joyrl-book/#/ch4/main)    | 蒙特卡洛、时序差分 |
+|    [第五章 免模型控制](https://johnjim0816.com/joyrl-book/#/ch5/main)    | Q-learning 算法、Sarsa 算法 |
+| [第六章 深度学习基础](https://johnjim0816.com/joyrl-book/#/ch6/main) | 神经网络、梯度下降 |
+| [第七章 DQN算法](https://johnjim0816.com/joyrl-book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
+| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl-book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
+| [第九章 策略梯度](https://johnjim0816.com/joyrl-book/#/ch9/main) | 随机性策略、REINFORCE |
+| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl-book/#/ch10/main) | A2C、A3C |
+| [第十一章 DDPG算法](https://johnjim0816.com/joyrl-book/#/ch11/main) | DDPG、TD3 |
+| [第十二章 PPO算法](https://johnjim0816.com/joyrl-book/#/ch12/main) | 重要性采样、PPO |
+| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
+| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) |  |
 
 ## 贡献者
 
-
 <table border="0">
   <tbody>
     <tr align="center" >