目录

简介

策略梯度的基本思想,就是直接根据状态输出动作或者动作的概率

如果一个动作得到的reward多,那么我们就使其出现的概率增加,如果一个动作得到的reward少,我们就使其出现的概率减小。

根据这个思想,我们构造如下的损失函数:loss= -log(prob)*vt

策略梯度算法必须要完成一个完整的eposide才可以进行参数更新,而不是像值方法那样,每一个(s,a,r,s')都可以进行参数更新。

Policy Gradient的核心思想是更新参数时有两个考虑:如果这个回合选择某一动作,下一回合选择该动作的概率大一些,然后再看奖惩值,如果奖惩是正的,那么会放大这个动作的概率,如果奖惩是负的,就会减小该动作的概率。

过程

avatar

细节

  • 算法输出的是动作的概率,而不是Q值。
  • 损失函数的形式为:loss= -log(prob)*vt
  • 需要一次完整的episode才可以进行参数的更新

Finite Difference Policy Gradient

Monte-Carlo Policy Gradient

Actor-Critic Policy Gradient

参考