强化学习分类

标签: reinforcement learning 更新于: 2018/09/04 阅读:1647 原文发表于：2018-09-05

value-based

基于价值函数的强化学习，它先通过对现状进行一个价值函数的估计，进而去提升策略，估计这个策略，再重复循环，再估计当前策略下的函数，再用当前价值函数来提升它的策略，两步，第一步估计价值函数，第二步是提升它的策略，这两步一直循环。

基于值的函数分为在线学习和离线学习两种方式，在线学习的代表学习方法是 Sarsa，离线学习代表的是 Q-learning。

policy-based

基于策略的强化学习，一开始先估计它的值函数，经过价值函数进一步得到它的最优策略，但是基于策略的强化学习直接估计它的最优策略。但是我们估计这个最优策略的时候，同时也必须由那个自然数来进行领导，一个拟合或者使它得到了那个奖励最大化。

基于策略的强化学习，代表性的有策略梯度和 REINFORE 算法。另外，图（右上）可以看出它们是有交叉的，这些交叉可以是 AC 算法或比较高级的一些算法。

model-based

强化学习分为两部分，一个是环境，一个是 agent，但很多时候，环境的观测是不完整的，或者是没有那个环境的，这时，我们可能需要提前去模拟出这个环境，我记得有幅图比较形象，有环境的MDP是真实地球，模拟环境可以看出整个地球的地图，也就是地球的模拟。我们进一步利用这个模拟出来的地球来求它的价值函数和最终策略，我们比较熟悉的搜索之类的就是这种代表性的算法。

强化学习分类

目录

value-based

policy-based

model-based

reinforcement learning相关文章

最近热门

最常浏览