目录

Bellman Equation

Q-learning迭代过程:

首先,把所有动作的Q-value初始化为0。然后,遵循下面的规则进行迭代:

某个状态下某个动作的Q-value = 该动作导致的直接奖励 + 该动作导致的状态中最有价值动作的Q-value

理解

  • 所谓玩游戏的策略,其实就是一张记录着Q-value的表格
  • 这个表格可以用神经网络来替代
  • 我们没有监督数据来训练这个网络,所有的训练数据都是由网络自身生成的,当然还有环境给出的Reward(英语有个词叫做Bootstrapping,意思是提着自己的鞋带把自己提起来)
  • 其实我们可以什么都不做,算法自己会找出最佳策略