Q-learning

标签: reinforcement learning 更新于: 2018/08/29 阅读:834

目录

目录
Bellman Equation
理解

Bellman Equation

Q-learning迭代过程：

首先，把所有动作的Q-value初始化为0。然后，遵循下面的规则进行迭代：

某个状态下某个动作的Q-value = 该动作导致的直接奖励 + 该动作导致的状态中最有价值动作的Q-value

理解

所谓玩游戏的策略，其实就是一张记录着Q-value的表格
这个表格可以用神经网络来替代
我们没有监督数据来训练这个网络，所有的训练数据都是由网络自身生成的，当然还有环境给出的Reward（英语有个词叫做Bootstrapping，意思是提着自己的鞋带把自己提起来）
其实我们可以什么都不做，算法自己会找出最佳策略