论文 | TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou

作者：Zihua Si等，来自快手科技有限公司、中国人民大学等

一、研究背景

二、相关工作

CTR预测：早期研究使用浅层模型，如LR、FM等，后来发展到深度和浅层模型结合，如Wide&Deep、DeepFM等，同时用户行为数据受到关注，如YoutubeDNN、DIN等采用了目标注意力机制。
长期用户行为建模：早期使用记忆网络，如HPMN、MIMN等，后来一些方法如UBCS、DGIN等尝试缩短用户行为长度，近期工作如SIM、UBR4CTR、ETA、SDIM、TWIN等采用两阶段方法，分别检索和建模长期兴趣。
HPMN：基于个性化记忆的终身顺序建模用于用户响应预测
阿里MIMN模型Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction

三、方法

整体流程：包括离线和在线部分，通过分层聚类压缩生命周期行为，并使用这些集群来建模用户的长期兴趣。
生命周期用户建模：
- 分层聚类：使用分层聚类将用户历史行为中相似的项目聚合成集群，从而减少行为序列的长度。
- 提取集群表示：用虚拟项表示每个集群的特征，分为数值和分类特征，分别用不同方法提取。
- 集群感知目标注意力：在ESU和GSU中采用相同的高效注意力机制，根据集群大小调整相关性分数。
部署：分为在线和离线两部分，在线部分根据用户请求提取行为特征，计算行为与目标的相关性分数，选择并聚合前100个集群作为长期兴趣输入CTR模型进行预测；离线部分周期性压缩用户的生命周期行为，进行分层聚类和特征提取。

四、实验

实验设置：
- 数据集：从快手应用中提取用户交互数据，涵盖五天，追溯用户过去行为，构建训练和测试集。
- 基线：与多种SOTA基线进行比较，包括Avg - Pooling、DIN、SIM Hard等。
- 评估指标和协议：使用AUC和GAUC评估模型性能，按时间戳划分数据集，训练集为每天前23小时数据，测试集为最后1小时数据。
- 实现细节：所有模型使用相同的特征，TWIN - V2限制用户历史长度为100,000项进行聚类，压缩历史行为至约10%的原始大小，其他两阶段模型的GSU输入历史行为最大长度限制为10,000，DIN和Avg - Pooling的近期历史最大长度为100。
整体性能：TWIN - V2显著优于其他基线，在AUC和GAUC上有提升，且在GAUC上的相对改进更大，表明在不同用户类型上均有增强。
消融研究：
- 比较不同分层聚类方法：验证了自适应δ的有效性，其创建的集群中项目的表示向量更匹配，相似度更高，运行时间更短。
- 集群感知目标注意力的有效性：通过实验证明了根据集群大小调整注意力分数的有效性。
- 在线实验：通过在线A / B测试验证了TWIN - V2在快手工业系统中的性能，在观看时间和推荐结果多样性方面均有改进。

五、结论