论文地址:http://www.icml-2011.org/papers/554_icmlpaper.pdf
《Doubly Robust Policy Evaluation and Learning》总结 作者为Miroslav Dud´ık、John Langford和Lihong Li,来自Yahoo! Research。
研究背景
在部分观测奖励的环境中进行决策,如互联网广告和医疗保健等领域,被称为上下文老虎机问题(contextual bandits)。该问题的核心任务是根据历史数据评估新策略的价值,但过去的数据通常不能准确代表新策略采取的行动比例,以往的方法存在偏差大或方差大的问题。
主要内容
-
问题定义与方法:
- 现有方法:直接法(DM)估计奖励函数来评估策略价值,但可能存在偏差;逆倾向得分法(IPS)通过重要性加权来纠正历史数据中行动比例的偏差,但方差较大。
- 双重稳健估计器(DR):结合了奖励的估计和行动概率的估计,形式为。
-
偏差分析:
- 定义了和。
- 得出定理1:双重稳健估计器的偏差为,若过去策略和估计静止,则简化为。
- 与DM和IPS对比,DR能更好地利用信息进行估计。
-
方差分析:
- 得出定理2:双重稳健估计器的方差为。
- 方差可分解为三个部分,与IPS估计器的方差进行对比,DR或IPS的方差取决于多种因素,而DM的方差通常较低,但偏差较大。
-
实验:
-
多类分类与老虎机反馈:
- 数据集设置:将分类任务转化为上下文老虎机问题,采用来自UCI仓库的基准问题进行实验。
- 策略评估:DR技术能更准确地估计策略价值,IPS和DR无偏,DM偏差较大,且DR方差更低。
- 策略优化:DR在所有数据集上都比IPS更具优势,能显著改进分类器,且对不同算法都有普遍适用性。
- 估计平均用户访问量:在实际问题中对比IPS和DR,随着数据量增加,估计误差减小,DR的均方根误差(rmse)始终优于IPS,其准确性提升源于较低的方差。
-
结论
双重稳健政策估计是一种有效的技术,通常能改进广泛使用的逆倾向得分法,实验结果证实了其能给出更可靠和准确的估计,未来有望在改进上下文老虎机算法中得到广泛应用。