ε-greedy

标签: reinforcement learing 更新于: 2018/08/29 阅读:2712

简介

即每个状态有ε的概率进行探索（即随机选取飞或不飞），而剩下的1-ε的概率则进行开发（选取当前状态下效用值较大的那个动作）。ε一般取值较小，0.01即可。当然除了ε-greedy方法还有一些效果更好的方法，不过可能复杂很多。