Markov Decision Processes - 马科夫决策过程

标签: mdp , reinforcement learning 更新于: 2018/08/29 阅读:783

目录

目录
MDP模型元素

MDP模型元素

状态集合S
行为结合A
奖励函数R(s, a)
状态转移矩阵T
- 确定性转移S×A→S
- 概率性转移S×A→Prob(S)
行为策略π：S -> A

在状态ss下的应采取的最佳行为aa:a=π(s)