目录
Bellman Equation
Q-learning迭代过程:
首先,把所有动作的Q-value初始化为0。然后,遵循下面的规则进行迭代:
某个状态下某个动作的Q-value = 该动作导致的直接奖励 + 该动作导致的状态中最有价值动作的Q-value
理解
- 所谓玩游戏的策略,其实就是一张记录着Q-value的表格
- 这个表格可以用神经网络来替代
- 我们没有监督数据来训练这个网络,所有的训练数据都是由网络自身生成的,当然还有环境给出的Reward(英语有个词叫做Bootstrapping,意思是提着自己的鞋带把自己提起来)
- 其实我们可以什么都不做,算法自己会找出最佳策略