diff --git a/docs/ch6/main.md b/docs/ch6/main.md index 59d1d86..dfce45b 100644 --- a/docs/ch6/main.md +++ b/docs/ch6/main.md @@ -9,7 +9,7 @@ $\qquad$ 在过渡到深度强化学习之前,本章将对强化学习中用 $\qquad$ 之前我们讲到了强化学习的问题可以拆分成两类问题,即预测和控制。预测的主要目的是根据环境的状态和动作来预测状态价值和动作价值,而控制的主要目的是根据状态价值和动作价值来选择动作。换句话说,预测主要是告诉我们当前状态下采取什么动作比较好,而控制则是按照某种方式决策。就好比军师与主公的关系,军师提供他认为最佳的策略,而主公则决定是否采纳这个策略。 -$\qquad$ 不知道读者们是否看过《超智能足球$\text{GGO}$》这部热血动漫,老实讲它是笔者看过比较好的带有高科技元素的足球动漫,主要讲述的是主角团带领着他们的超智能足球机器人组队打入世界大赛的故事,也是启引笔者选择强化学习的初衷之一。 +$\qquad$ 不知道读者们是否看过《超智能足球》这部热血动漫,老实讲它是笔者看过比较好的带有高科技元素的足球动漫,主要讲述的是主角团带领着他们的超智能足球机器人组队打入世界大赛的故事,也是启引笔者选择强化学习的初衷之一。 $\qquad$ 如图 $\text{6-1}$ 所示,其中有一队叫做英国三狮,主要领队是尼尔逊和巴菲斯,巴菲斯是一个超级数据分析专家,他能在各种场景下计算对手传球、射门的概率,也包括我方进球和传球的各种收益,然后尼尔逊会根据他的数据分析结果来决定下一步行动。尼尔逊也是一个非常有头脑的领队,他不会只依靠巴菲斯的计算结果,而是会结合自身的经验和对足球的直觉来做出数据之外的决策。这个数据之外的决策在强化学习中叫做探索,也就是说尼尔逊会根据巴菲斯的计算结果来做出决策,但是他也会根据自己的经验和直觉来做出一些不确定的决策,这样才能保证他的队伍不会被对手轻易的猜到。 diff --git a/docs/index.html b/docs/index.html index 18ee518..99cd5aa 100644 --- a/docs/index.html +++ b/docs/index.html @@ -6,7 +6,17 @@ - + + + + + + +
@@ -53,5 +63,7 @@ + +