目录
value-based
基于价值函数的强化学习,它先通过对现状进行一个价值函数的估计,进而去提升策略,估计这个策略,再重复循环,再估计当前策略下的函数,再用当前价值函数来提升它的策略,两步,第一步估计价值函数,第二步是提升它的策略,这两步一直循环。
基于值的函数分为在线学习和离线学习两种方式,在线学习的代表学习方法是 Sarsa,离线学习代表的是 Q-learning。
policy-based
基于策略的强化学习,一开始先估计它的值函数,经过价值函数进一步得到它的最优策略,但是基于策略的强化学习直接估计它的最优策略。但是我们估计这个最优策略的时候,同时也必须由那个自然数来进行领导,一个拟合或者使它得到了那个奖励最大化。
基于策略的强化学习,代表性的有策略梯度和 REINFORE 算法。另外,图(右上)可以看出它们是有交叉的,这些交叉可以是 AC 算法或比较高级的一些算法。
model-based
强化学习分为两部分,一个是环境,一个是 agent,但很多时候,环境的观测是不完整的,或者是没有那个环境的,这时,我们可能需要提前去模拟出这个环境,我记得有幅图比较形象,有环境的MDP是真实地球,模拟环境可以看出整个地球的地图,也就是地球的模拟。我们进一步利用这个模拟出来的地球来求它的价值函数和最终策略,我们比较熟悉的搜索之类的就是这种代表性的算法。