美团DGIN模型：Deep Group Interest Modeling of Full Lifelong User Behaviors for CTR Prediction

[2311.10764] Deep Group Interest Modeling of Full Lifelong User Behaviors for CTR Prediction

“Deep Group Interest Network on Full Lifelong User Behaviors for CTR Prediction”由Qi Liu等人撰写。在推荐系统中，CTR预测至关重要，但现有基于终身行为序列建模的方法存在局限，如信息丢失和兴趣估计偏差。该文提出深度群组兴趣网络（DGIN），以端到端方式处理用户全部终身行为，包括点击、收藏和购买等。创新点在于将行为序列按兴趣键分组，减少序列长度，并通过多种机制分析组内行为和提取用户兴趣。实验在工业和公共数据集上进行，结果表明DGIN性能优异，A/B测试中使CTR提高4.5%，每英里收入提高2.0%，为CTR预测提供了更有效的方法。

引言
- 研究背景：在推荐系统中，CTR预测对物品排序和展示至关重要。分析用户全部历史行为序列比仅考虑近期行为更能反映其偏好，但在线平台的低延迟需求限制了对长行为序列的处理。
- 现有方法局限：现有终身行为序列建模方法多采用两阶段法，虽在一定程度上平衡了效率和效果，但存在兴趣估计偏差和不完整的问题。一是检索过程仅保留部分相关行为，丢弃大量历史行为；二是仅依赖点击行为构建序列，无法全面描绘用户兴趣。
- 本文方法：提出DGIN，首先按指定兴趣键将全部终身行为组织成兴趣组，显著降低行为长度，再通过两种设计减少信息损失：一是利用统计和自注意力分析组内行为，用目标注意力确定用户兴趣；二是基于与候选兴趣键相同的行为子序列，用注意力机制确定候选特定兴趣。
相关工作
- CTR预测：早期方法关注低阶特征交互，深度学习方法取得进展。用户行为序列建模也受关注，但现有方法多基于截断短序列，无法获取长期兴趣模式。部分工作引入多种行为序列，但仍有不足。
- 长用户行为序列建模：长行为序列建模逐渐受到探索，两阶段解决方案成为主流，但仍存在从检索子序列提取兴趣导致的偏差问题。DGIN采用分组策略，使所有行为参与兴趣提取，实现端到端训练。
方法
- 预备知识：CTR预测是估计用户点击候选物品的概率，通常将其作为二元分类问题，通过最小化负对数似然损失训练模型。DGIN由嵌入层、组模块（GM）、目标模块（TM）和多层感知器（MLP）组成。
- 嵌入层：为各字段设置嵌入矩阵，将输入的稀疏 one - hot向量转换为低维密集向量。对于用户行为序列，将每个行为的多个属性转换为嵌入并连接作为行为表示。
- 组模块：离线将终身行为序列按兴趣键分组，为弥补信息损失，设计统计和聚合属性。统计属性从数量、时间、金额等方面统计组内行为，聚合属性通过对行为的时空属性应用多头自注意力（MHSA）获取，最后用多头目标注意力（MHTA）从兴趣组中提取兴趣。
- 目标模块：从终身行为序列中检索与候选物品兴趣键相同的行为子序列，先利用MHSA强化行为差异，再用MHTA提取心理决策兴趣。
实验设置
- 数据集：使用工业数据集（来自在线LBS平台，包含多种行为，训练集为过去两年数据，测试集为后一天数据）和Taobao数据集（由淘宝推荐系统用户行为组成）。
- 基线方法：从短行为序列建模、多类型短行为序列建模、终身点击行为序列挖掘、全终身行为序列建模四个角度选择基线方法，并增加SIM - TM进行对比。
- 评估指标：采用AUC和LogLoss评估模型性能。
- 实现细节：选择item_id作为兴趣键，用Tensorflow实现DGIN，对不同数据集设置不同嵌入大小和学习率，使用Adam优化器，多次实验取平均结果。
实验结果
- 总体性能：DGIN在两个数据集上均表现最佳，原因是能端到端提取全面无偏兴趣和心理决策兴趣。与其他方法对比还发现，DIEN比DIN好说明时间信息重要；多类型行为序列建模可提升性能；SIM - TM优于SIM证明特定子序列处理有效；长期兴趣有助于提高CTR预测准确性；更精细的端到端训练有效；DSIN因按会话分组导致性能下降。
- 消融研究：对DGIN各组件进行研究，结果表明统计属性、聚合属性和候选感知子序列均对性能提升有益。
- 多类型行为的影响：DGIN在处理多类型行为时性能优于仅用点击行为的情况，说明多类型行为能让模型更全面理解用户偏好。
- 兴趣键的选择：比较不同兴趣键，发现按item_id分组效果较好，按会话分组效果最差，补充人为设计属性可缓解性能下降。
- 部署：DGIN部署系统包括数据处理、离线训练和在线服务三个子系统，分别介绍了各系统的工作流程和作用。
- A/B测试：在在线LBS广告系统中进行A/B测试，DGIN相对SIM Hard在CTR和RPM上分别有4.5%和2.0%的提升，且资源成本增加可忽略不计。
结论：提出的DGIN通过组模块和目标模块提取用户细粒度、全面无偏兴趣和心理决策兴趣，实现了高效的端到端全终身用户行为序列建模，提升了CTR预测性能。

美团DGIN模型：Deep Group Interest Modeling of Full Lifelong User Behaviors for CTR Prediction

序列建模相关文章

美团相关文章

最近热门

最常浏览