论文地址

《RAT: Retrieval-Augmented Transformer for Click-Through Rate Prediction》总结

这篇论文由Yushen Li等人撰写,提出了一种用于点击率预测的检索增强Transformer(RAT)模型。

  1. 引言

    • 点击率预测的关键是特征交互建模,传统方法主要关注单个样本内的特征交互,忽视了跨样本关系。
    • 检索增强学习在自然语言处理和计算机视觉中有效,受其启发,认为它有望解决点击率预测中的问题。
    • 现有相关工作RIM、DERT和PET存在牺牲跨样本知识、检索建模局限或建模内样本特征交互不灵活等问题。
  2. 提出的方法

    • 检索相似样本作为上下文:使用BM25从保留的样本池中检索目标样本的相似样本,提供了基于GPU的高效实现。
    • 构建检索增强输入:将离散特征转换为嵌入向量,将检索样本的标签视为特殊特征构建嵌入表,通过堆叠目标记录和检索样本的嵌入得到检索增强输入。
    • 样本内和样本间特征交互:RAT块包括一个内部块、一个交叉块和一个多层感知机(MLP),通过级联的方式进行注意力计算,与普通联合注意力相比,降低了复杂度,提高了效率和鲁棒性。
  3. 实验

    • 实验设置:在三个数据集(ML - Tag、KKBox和Tmall)上进行实验,使用AUC和Logloss作为评估指标,选择两类基线模型进行对比,使用FuxiCTR实现并遵循BARS基准设置。
    • 与现有方法对比:检索增强模型总体优于传统模型,RAT优于其他检索增强模型,展示了Transformer在建模精细特征交互方面的强大能力。
    • 在长尾数据上的性能:RA模型在长尾数据上表现更好,RAT在处理特征稀疏和冷启动问题上具有优势。
    • 模型分析:对比了RAT块的不同设计,包括联合建模、级联编码器和并行注意力,发现分解建模设计比联合建模更有效,级联注意力略优于并行注意力。
  4. 结论

    • RAT通过分解样本内和样本间的交互建模,提高了效率和鲁棒性,实验验证了其有效性,且在处理长尾数据方面具有优势。