《关于视频推荐中观看时间预测的时长偏差问题的研究》
作者为Ruohan Zhan、Changhua Pei、Qiang Su等人,来自快手科技和香港科技大学。
一、研究背景
- 在线视频消费的增长使得优化视频推荐系统变得至关重要,准确预测观看时间是提高用户参与度的关键,但视频时长往往会导致推荐系统中的偏差问题。
二、问题阐述
- 观看时间不仅取决于用户对视频的兴趣,还受视频时长的影响。标准的观看时间预测模型通常将时长与其他视频特征一起作为输入,但这会导致偏差,因为推荐系统为了提高观看时间,往往偏向于推荐时长较长的视频,从而忽视了用户的真实兴趣,且模型在不平衡数据上的训练会放大这种偏差,损害推荐的多样性和个性化。
三、相关工作
- 观看时间预测:以往研究较少关注观看时间预测,[7]提供了一种行业标准解决方案,但其中时长较长的视频在模型训练中会放大时长偏差,且该方法不适用于TikTok和快手等提供全屏视频内容的流媒体服务。
- 推荐系统中的偏差:解决推荐系统中偏差的方法包括因果嵌入、逆倾向加权和因果干预,本文的工作属于因果干预类别。
- 因果干预:通过有向无环图(因果图)捕捉变量间的因果关系,处理偏差的标准方法是进行do - 演算(backdoor adjustment),以消除不期望的因果效应。
四、因果模型
- 用因果图来表征用户、视频、时长、观看时间之间的关系,时长是一个混杂因素,同时影响视频曝光和观看时间预测。$D \to W$表示时长对观看时间有直接的因果关系,应被观看时间预测模型捕获;$D \to V \to W$表示时长对视频曝光的影响是一种偏差项,应被消除。
五、后门调整
- 去混淆时长:按照backdoor adjustment的原则,通过移除$D \to V$的边来消除时长对视频曝光的偏差,将时长分布离散化为不相交的组,拟合组级别的观看时间预测模型来完成估计。
- 基于时长分位数的数据分割:根据时长分位数将数据分割为M个相等的部分,以消除时长对视频曝光的偏差,同时通过将视频时长作为模型输入的一部分来区分不同时长组的样本。
- 估计每个时长组的观看时间:通过将原始观看时间标签转换为与时长相关的观看时间标签,拟合观看时间分位数而不是原始值,从而实现时长去偏差和参数共享的目标,提出了Duration - Deconfounded Quantile - based(D2Q)观看时间预测框架。
六、实验结果
-
离线评估:
- 方法与数据:使用快手应用上收集的生产数据,评估了VR(Value Regression)、WLR(Weighted Logistic Regression)、D2Q(本文方法)和Res - D2Q(改进的本文方法)四种方法。
- 指标:使用MAE(Mean Absolute Error)、XAUC(扩展的AUC)和XGAUC(按用户平均的XAUC)来衡量性能。
- 结果:D2Q和Res - D2Q在所有指标上表现最佳,且随着时长组数量的增加,性能先提高后下降,验证了时长去偏差的有效性和样本量对性能的影响。
-
现场实验:
- 对比方法与实验设置:在快手视频推荐平台进行A / B实验,比较了VR、WLR和Res - D2Q(时长组为30)三种方法,将观看时间预测集成到在线推荐系统的排名阶段,随机将用户分为不同桶进行评估。
- 指标:根据用户在桶中观看视频的总时间(WatchTime)来评估模型性能,同时提供了like、follow、share和comment等用户交互指标作为约束指标。
- 结果:WLR和Res - D2Q在WatchTime指标上显著优于VR,Res - D2Q的改进更为显著,且在约束指标上的差异可忽略不计。
七、结论
本文提出了Duration - Deconfounded Quantile - based(D2Q)框架,通过因果图表征时长对视频曝光和观看时间预测的混杂效应,消除了时长对视频的偏差,保留了时长对观看时间的自然影响。通过大量的离线评估和现场实验,证明了该方法在提供更准确的观看时间估计方面的优势,进而改善了快手应用上的实时视频消费,同时展示了时长组数量对模型性能的影响。