Skip to content

Commit

Permalink
更新README
Browse files Browse the repository at this point in the history
  • Loading branch information
johnjim0816 committed Sep 11, 2023
1 parent 0af90ff commit c9e0694
Show file tree
Hide file tree
Showing 2 changed files with 28 additions and 30 deletions.
29 changes: 14 additions & 15 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,24 +24,23 @@

| 章节 | 关键内容 |
| :-------------------------------: | :--: |
| [第一章 绪论](https://johnjim0816.com/joyrl_book/#/ch1/main) | |
| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl_book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
| [第三章 动态规划](https://johnjim0816.com/joyrl_book/#/ch3/main) | 贝尔曼方程、策略迭代、价值迭代 |
| [第四章 免模型预测](https://johnjim0816.com/joyrl_book/#/ch4/main) | 蒙特卡洛、时序差分 |
| [第五章 免模型控制](https://johnjim0816.com/joyrl_book/#/ch5/main) | Q-learning 算法、Sarsa 算法 |
| [第六章 深度学习基础](https://johnjim0816.com/joyrl_book/#/ch6/main) | 神经网络、梯度下降 |
| [第七章 DQN算法](https://johnjim0816.com/joyrl_book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl_book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
| [第九章 策略梯度](https://johnjim0816.com/joyrl_book/#/ch9/main) | 随机性策略、REINFORCE |
| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl_book/#/ch10/main) | A2C、A3C |
| [第十一章 DDPG算法](https://johnjim0816.com/joyrl_book/#/ch11/main) | DDPG、TD3 |
| [第十二章 PPO算法](https://johnjim0816.com/joyrl_book/#/ch12/main) | 重要性采样、PPO |
| [第十三章 SAC算法](https://johnjim0816.com/joyrl_book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
| [练习题解答](https://johnjim0816.com/joyrl_book/#/appendix/main) | |
| [第一章 绪论](https://johnjim0816.com/joyrl-book/#/ch1/main) | |
| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl-book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
| [第三章 动态规划](https://johnjim0816.com/joyrl-book/#/ch3/main) | 贝尔曼方程、策略迭代、价值迭代 |
| [第四章 免模型预测](https://johnjim0816.com/joyrl-book/#/ch4/main) | 蒙特卡洛、时序差分 |
| [第五章 免模型控制](https://johnjim0816.com/joyrl-book/#/ch5/main) | Q-learning 算法、Sarsa 算法 |
| [第六章 深度学习基础](https://johnjim0816.com/joyrl-book/#/ch6/main) | 神经网络、梯度下降 |
| [第七章 DQN算法](https://johnjim0816.com/joyrl-book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl-book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
| [第九章 策略梯度](https://johnjim0816.com/joyrl-book/#/ch9/main) | 随机性策略、REINFORCE |
| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl-book/#/ch10/main) | A2C、A3C |
| [第十一章 DDPG算法](https://johnjim0816.com/joyrl-book/#/ch11/main) | DDPG、TD3 |
| [第十二章 PPO算法](https://johnjim0816.com/joyrl-book/#/ch12/main) | 重要性采样、PPO |
| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) | |

## 贡献者


<table border="0">
<tbody>
<tr align="center" >
Expand Down
29 changes: 14 additions & 15 deletions docs/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,24 +24,23 @@

| 章节 | 关键内容 |
| :-------------------------------: | :--: |
| [第一章 绪论](https://johnjim0816.com/joyrl_book/#/ch1/main) | |
| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl_book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
| [第三章 动态规划](https://johnjim0816.com/joyrl_book/#/ch3/main) | 贝尔曼方程、策略迭代、价值迭代 |
| [第四章 免模型预测](https://johnjim0816.com/joyrl_book/#/ch4/main) | 蒙特卡洛、时序差分 |
| [第五章 免模型控制](https://johnjim0816.com/joyrl_book/#/ch5/main) | Q-learning 算法、Sarsa 算法 |
| [第六章 深度学习基础](https://johnjim0816.com/joyrl_book/#/ch6/main) | 神经网络、梯度下降 |
| [第七章 DQN算法](https://johnjim0816.com/joyrl_book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl_book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
| [第九章 策略梯度](https://johnjim0816.com/joyrl_book/#/ch9/main) | 随机性策略、REINFORCE |
| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl_book/#/ch10/main) | A2C、A3C |
| [第十一章 DDPG算法](https://johnjim0816.com/joyrl_book/#/ch11/main) | DDPG、TD3 |
| [第十二章 PPO算法](https://johnjim0816.com/joyrl_book/#/ch12/main) | 重要性采样、PPO |
| [第十三章 SAC算法](https://johnjim0816.com/joyrl_book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
| [练习题解答](https://johnjim0816.com/joyrl_book/#/appendix/main) | |
| [第一章 绪论](https://johnjim0816.com/joyrl-book/#/ch1/main) | |
| [第二章 马尔可夫决策过程](https://johnjim0816.com/joyrl-book/#/ch2/main) | 马尔可夫决策过程、状态转移矩阵 |
| [第三章 动态规划](https://johnjim0816.com/joyrl-book/#/ch3/main) | 贝尔曼方程、策略迭代、价值迭代 |
| [第四章 免模型预测](https://johnjim0816.com/joyrl-book/#/ch4/main) | 蒙特卡洛、时序差分 |
| [第五章 免模型控制](https://johnjim0816.com/joyrl-book/#/ch5/main) | Q-learning 算法、Sarsa 算法 |
| [第六章 深度学习基础](https://johnjim0816.com/joyrl-book/#/ch6/main) | 神经网络、梯度下降 |
| [第七章 DQN算法](https://johnjim0816.com/joyrl-book/#/ch7/main) | DQN 算法、目标网络、经验回放 |
| [第八章 DQN算法进阶](https://johnjim0816.com/joyrl-book/#/ch8/main) | Double DQN、Dueling DQN、PER DQN |
| [第九章 策略梯度](https://johnjim0816.com/joyrl-book/#/ch9/main) | 随机性策略、REINFORCE |
| [第十章 Actor-Critic算法](https://johnjim0816.com/joyrl-book/#/ch10/main) | A2C、A3C |
| [第十一章 DDPG算法](https://johnjim0816.com/joyrl-book/#/ch11/main) | DDPG、TD3 |
| [第十二章 PPO算法](https://johnjim0816.com/joyrl-book/#/ch12/main) | 重要性采样、PPO |
| [第十三章 SAC算法](https://johnjim0816.com/joyrl-book/#/ch13/main) | 最大熵强化学习、Soft Q、SAC |
| [练习题解答](https://johnjim0816.com/joyrl-book/#/appendix/main) | |

## 贡献者


<table border="0">
<tbody>
<tr align="center" >
Expand Down

0 comments on commit c9e0694

Please sign in to comment.