Policy Gradient - 策略梯度

标签: 强化学习更新于: 2024/09/21 阅读:2273 原文发表于：2018-08-29

简介

策略梯度的基本思想，就是直接根据状态输出动作或者动作的概率。

如果一个动作得到的reward多，那么我们就使其出现的概率增加，如果一个动作得到的reward少，我们就使其出现的概率减小。

根据这个思想，我们构造如下的损失函数：loss= -log(prob)*vt

策略梯度算法必须要完成一个完整的eposide才可以进行参数更新，而不是像值方法那样，每一个(s,a,r,s')都可以进行参数更新。

Policy Gradient的核心思想是更新参数时有两个考虑：如果这个回合选择某一动作，下一回合选择该动作的概率大一些，然后再看奖惩值，如果奖惩是正的，那么会放大这个动作的概率，如果奖惩是负的，就会减小该动作的概率。

avatar