深度强化学习 - 连续动作控制DDPG、NAF、Actor-Critic

标签: reinforcement learning , DDPG , NAF 更新于: 2018/09/04 阅读:4340 原文发表于：2018-09-06

DQN存在的问题

DQN是一个面向离散控制的算法，即输出的动作是离散的。对应到Atari 游戏中，只需要几个离散的键盘或手柄按键进行控制。

然而在实际中，控制问题则是连续的，高维的，比如一个具有6个关节的机械臂，每个关节的角度输出是连续值，假设范围是0°~360°，归一化后为（-1，1）。若把每个关节角取值范围离散化，比如精度到0.01，则一个关节有200个取值，那么6个关节共有20062006个取值，若进一步提升这个精度，取值的数量将成倍增加，而且动作的数量将随着自由度的增加呈指数型增长。所以根本无法用传统的DQN方法解决。

解决方案

使用Policy-Based方法，通过各种策略梯度方法直接优化用深度神经网络参数化表示的策略，即网络的输出就是动作。

DDPG

深度确定性策略梯度（Deep Deterministic Policy Gradient， DDPG）算法是Lillicrap 等人利用 DQN 扩展 Q 学习算法的思路对确定性策略梯度（Deterministic Policy Gradient， DPG）方法进行改造，提出的一种基于行动者-评论家（Actor-Critic，AC）框架的算法，该算法可用于解决连续动作空间上的 DRL 问题。

基于AC框架的深度策略梯度方法的学习结构

avatar

参考

深度强化学习——连续动作控制DDPG、NAF

深度强化学习 - 连续动作控制DDPG、NAF、Actor-Critic

目录

DQN存在的问题

解决方案

DDPG

基于AC框架的深度策略梯度方法的学习结构

参考

reinforcement learning相关文章

DDPG相关文章

NAF相关文章

最近热门

最常浏览