0%

强化学习入门(整理)

由于本人发现,相较于机器学习或者深度学习来说,在国内几乎找不到多少关于强化学习或者深度强化学习的资料,也没有太多学习路线的帖子,所以这里记录一下我的入门经历。

另外,由于本人并不是主修强化学习,我只是遇到了需要使用强化学习的场景(对话系统)。目前我只需要尽可能地实现那个模块即可,所以我也只是选取了 Q-learning 作为我的工具。所以本篇到目前为止(2020.09.27)只涉及 Q-learning 的入门,包括 Deep Q Network。

本人是零基础入门,在学习 Q-learning 之前,只知道什么是马尔可夫假设,不知道马尔科夫决策过程。所以以下的资料应该对初学者很友好。

入门资料

莫烦的教程中有几个小型试验可以拿来做一下,Q-learning 就差不多算入门了。然后他的视频还继续介绍了 DQN,可以算做一个基础的视频。到此为止算是基本上对 Q-learning 有了一定的了解。

注意,对于 1. Q-learning 所提供的资料来说,我反复地按 123 的顺序观看了三四遍,最后才勉强看懂。

  1. Q-learning
    1. 来!让我们一步步走进 Q-learning:这个教程从零开始讲解 Q-learning,但是在讲到 1/4 时(大致在《迭代求解 V 函数和 Q 函数》一节之后),感觉很乱,所以推荐看一下前 1/3 部分,有助于对 Q-learning 建立一个大致的印象。
    2. 强化学习 Reinforcement Learning (莫烦 Python 教程):莫烦的 RL 教程,我只看了其中的 Q-lerning 教程。这是从两个实例出发的,有助于进一步建立一个直观的印象,一个对应用的印象。
    3. A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程):一个 Q-learning 的简单教程,其中进行了简单的数值计算,有助于了解 Q-lerning 在运算时,究竟是怎么样的过程。我认为里面的算法有点问题,但是不妨碍它是一个好教程。
  2. DQN
    1. 强化学习 Reinforcement Learning (莫烦 Python 教程):继续看完 DQN 部分。

强化资料

  1. DQN