• HPMN:https://zhuanlan.zhihu.com/p/95416454

[1905.00758] Lifelong Sequential Modeling with Personalized Memorization for User Response Prediction

  1. 研究背景与目标

    • 用户响应预测在在线服务中至关重要,准确预测用户对项目的响应(如点击或转化)可指导服务提供商决策。用户行为数据具有反映用户兴趣和偏好动态变化、序列长度因用户而异、存在长期依赖和多尺度顺序模式等特点。现有顺序建模方法多关注短期行为,难以处理长期尤其是终身顺序模式,因此本文提出终身顺序建模框架及分层周期记忆网络(HPMN),以实现个性化用户建模,提高用户响应预测性能。
  2. 方法(HPMN)

    • 定义与特点:终身顺序建模(LSM)是基于用户终身行为历史进行连续在线用户建模与顺序模式挖掘的过程,具有支持终身记忆、综合建模、持续适应新行为等特点。HPMN通过个性化记忆、分层记忆架构、周期更新机制、注意力记忆读取和记忆协方差正则化实现LSM。

    • 模型架构

    • 分层记忆:为每个用户设置包含D个记忆槽的用户特定记忆池,每个记忆槽是用户建模的实值表示,可捕捉内在用户兴趣和时间顺序模式,且随行为序列增长而增量更新。HPMN是包含D层的分层记忆网络,每层维护特定记忆槽,层间通过状态转移连接,实现信息传递和多尺度顺序模式捕捉。

    • 连续记忆更新:由于用户 - 项目交互增长迅速,模型采用增量更新机制,在每个时间步,根据更新周期更新每层记忆槽,更新基于门控循环单元(GRU),上层更新频率低,可避免梯度问题,更好记忆长期依赖,不同层更新行为捕捉多尺度顺序模式。
    • 注意力记忆读取:计算综合用户表示时,根据记忆槽与查询向量(目标项目)的相关性计算注意力权重,通过能量模型衡量相关性,最终用户表示用于后续用户响应预测。
    • 记忆协方差正则化:为使不同记忆槽存储不同视角的用户兴趣知识,对记忆内容的协方差矩阵进行正则化,惩罚不同记忆槽间的协方差,促进记忆效用。
    • 预测函数与损失:预测时通过查询个性化记忆获取用户表示,经多层深度网络计算用户响应概率。损失函数包括交叉熵损失、协方差正则化损失和参数正则化损失,通过梯度下降优化。
  3. 实验

    • 实验设置

    • 数据集:使用Amazon、Taobao和XLong三个真实数据集,介绍了数据集来源、特点、预处理方法(按时间戳排序、构建负样本)、训练集和测试集划分方法。

    • 评估指标:采用AUC(评估分类结果的排序性能)和Log - loss(衡量整体可能性)作为用户响应预测任务的评估指标。
    • 实验流程:将用户行为序列分为近期短行为序列(用于部分基线模型评估)和终身行为序列(用于所有模型评估),所有模型使用相同特征,进行显著性检验以验证模型性能提升的统计显著性。
    • 对比设置:与三类共八个基线模型对比,包括聚合模型(DNN、SVD++)、短期顺序建模模型(GRU4Rec、Caser、DIEN、RUM)和长期顺序建模模型(LSTM、SHAN),并阐述了与其他模型的区别。
    • 超参数:包括训练超参数(学习率、正则化权重等)和HPMN模型结构超参数(记忆槽大小、各层更新周期)。

    • 实验结果与分析

    • 与基线模型对比:HPMN显著优于所有基线模型,取得了最先进的性能。聚合模型性能不如顺序建模方法;短期顺序建模方法中,GRU4Rec在长序列上存在问题,DIEN忽略多尺度模式且在线推理效率低,Caser卷积操作可能不适用于顺序建模,RUM未有效捕捉顺序模式;长期顺序建模模型中,LSTM内存有限,SHAN未考虑顺序模式。

    • 终身顺序建模分析:在Amazon和Taobao数据集上,几乎所有模型在终身序列建模上有性能提升,但在XLong数据集上,部分模型性能下降,而HPMN表现最佳,说明终身序列建模有助于用户建模和响应预测,但需要精心设计的记忆模型。
    • 模型收敛性:HPMN在三个数据集上收敛迅速,约一次迭代后Log - loss值稳定收敛。

    • 扩展研究

    • 多尺度依赖顺序模式:通过XLong数据集中的实例展示HPMN能捕获长、短期和多尺度顺序模式,如通过注意力热图分析不同层对不同模式的关注。

    • 记忆槽数量对模型容量的影响:在XLong数据集上,当记忆槽数量小于5时,增加记忆槽能显著提升模型性能,大于5时,AUC分数略有下降,说明模型容量受用户行为序列长度约束,为终身顺序建模中的记忆扩展提供了指导。
  4. 结论与展望

    • 提出的HPMN通过个性化分层记忆和周期更新机制,在用户响应预测中取得显著优势,优于现有强基线模型。未来将把终身顺序建模应用于多任务用户建模,并研究动态更新周期以捕捉更灵活的用户行为模式。