作者:Zihua Si等,来自快手科技有限公司、中国人民大学等
一、研究背景
- 在大规模推荐系统中,为CTR预测任务建模长期用户兴趣的重要性逐渐受到关注,但现有方法无法对用户的整个生命周期(多达100万个行为)进行建模。
- 现代工业系统采用两阶段方法来处理长用户历史行为,但现有第一阶段的GSUs通常有长度限制,无法覆盖用户的整个生命周期。
二、相关工作
- CTR预测:早期研究使用浅层模型,如LR、FM等,后来发展到深度和浅层模型结合,如Wide&Deep、DeepFM等,同时用户行为数据受到关注,如YoutubeDNN、DIN等采用了目标注意力机制。
- 长期用户行为建模:早期使用记忆网络,如HPMN、MIMN等,后来一些方法如UBCS、DGIN等尝试缩短用户行为长度,近期工作如SIM、UBR4CTR、ETA、SDIM、TWIN等采用两阶段方法,分别检索和建模长期兴趣。
三、方法
- 整体流程:包括离线和在线部分,通过分层聚类压缩生命周期行为,并使用这些集群来建模用户的长期兴趣。
- 生命周期用户建模:
- 分层聚类:使用分层聚类将用户历史行为中相似的项目聚合成集群,从而减少行为序列的长度。
- 提取集群表示:用虚拟项表示每个集群的特征,分为数值和分类特征,分别用不同方法提取。
- 集群感知目标注意力:在ESU和GSU中采用相同的高效注意力机制,根据集群大小调整相关性分数。
- 部署:分为在线和离线两部分,在线部分根据用户请求提取行为特征,计算行为与目标的相关性分数,选择并聚合前100个集群作为长期兴趣输入CTR模型进行预测;离线部分周期性压缩用户的生命周期行为,进行分层聚类和特征提取。
四、实验
-
实验设置:
- 数据集:从快手应用中提取用户交互数据,涵盖五天,追溯用户过去行为,构建训练和测试集。
- 基线:与多种SOTA基线进行比较,包括Avg - Pooling、DIN、SIM Hard等。
- 评估指标和协议:使用AUC和GAUC评估模型性能,按时间戳划分数据集,训练集为每天前23小时数据,测试集为最后1小时数据。
- 实现细节:所有模型使用相同的特征,TWIN - V2限制用户历史长度为100,000项进行聚类,压缩历史行为至约10%的原始大小,其他两阶段模型的GSU输入历史行为最大长度限制为10,000,DIN和Avg - Pooling的近期历史最大长度为100。
-
整体性能:TWIN - V2显著优于其他基线,在AUC和GAUC上有提升,且在GAUC上的相对改进更大,表明在不同用户类型上均有增强。
-
消融研究:
- 比较不同分层聚类方法:验证了自适应δ的有效性,其创建的集群中项目的表示向量更匹配,相似度更高,运行时间更短。
- 集群感知目标注意力的有效性:通过实验证明了根据集群大小调整注意力分数的有效性。
- 在线实验:通过在线A / B测试验证了TWIN - V2在快手工业系统中的性能,在观看时间和推荐结果多样性方面均有改进。
五、结论
- TWIN - V2将用户历史的最大长度有效地扩展到生命周期级别,可容纳快手中多达106个行为。
- 离线分层聚类和特征提取方法将超长行为压缩为更短的集群,显著减少了生命周期行为的存储和计算开销(减少90%)。
- 在线推断的集群感知目标注意力捕获了全面和多方面的用户兴趣,导致更准确和多样化的推荐结果。
- 广泛的离线和在线实验证明了TWIN - V2相对于SOTA基线的有效性,已成功部署在快手,服务于每日约4亿活跃用户的主要流量。