Actor-Critic算法

简介

Actor 的前生是 Policy Gradients, 这能让它毫不费力地在连续动作中选取合适的动作, 而 Q-learning 做这件事会瘫痪.

Critic 的前生是 Q-learning 或者其他的以值为基础的学习法 , 能进行单步更新, 而传统的 Policy Gradients 则是回合更新, 这降低了学习效率.

avatar

Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西。

Typically converge to a local rather than global optimum（通常得到的都是局部最优解）
Evaluating a policy is typically inefficient and high variance （评价策略通常不是非常高效，并且有很高的偏差）

我们再来定义 policy π 的 value function V(s)，将其看作是期望的折扣回报 (expected discounted return)，可以看作是下面的迭代的定义：

$V(s) = E_{\pi(s)} [r + \gamma V(s‘) ]$

前状态 s 所能获得的 return，是下一个状态 s‘ 所能获得 return 和在状态转移过程中所得到 reward r 的加和。