目录

MDP模型元素

  • 状态集合S
  • 行为结合A
  • 奖励函数R(s, a)
  • 状态转移矩阵T
    • 确定性转移S×A→S
    • 概率性转移S×A→Prob(S)
  • 行为策略π:S -> A

在状态ss下的应采取的最佳行为aa:a=π(s)