CIKM 2024 - 华为 QueryRec:利用搜索域query emb提升推荐域CTR预测
[2410.21487] Enhancing CTR Prediction in Recommendation Domain with Search Query Representation
“Enhancing CTR prediction in Recommendation Domain with Search Query Representation”由Yuening Wang等人撰写,聚焦于利用搜索查询表示提升推荐领域点击率(CTR)预测的问题。随着电商等平台同时提供搜索和推荐服务,如何整合两个领域信息成为关键。现有方法存在忽视用户意图转变和查询信息挖掘不足等问题。本文提出QueryRec框架,通过设计下一项预测损失和对比学习损失,结合扩散模型,有效学习查询嵌入并应用于CTR预测,实验证明其在多个数据集上优于现有方法,为推荐系统性能提升提供了新思路。
研究背景与问题提出
-
背景:许多在线平台同时提供搜索和推荐服务,如亚马逊、快手和YouTube等。用户在搜索服务中输入查询词以查找特定物品,在推荐服务中浏览系统推荐的物品。两个服务中的用户和物品存在重叠,这为整合两个领域的行为数据、提高推荐系统的点击率预测准确性提供了机会。
-
问题:现有方法在整合搜索和推荐领域时存在不足。部分方法忽略了用户搜索查询在反映兴趣和影响行为方面的重要作用,未考虑用户在不同领域意图的变化,且对查询与物品关系的处理不够精细,如简单地将搜索查询视为普通特征或忽视大量未点击查询的情况。
相关工作
-
推荐系统:众多跨领域推荐系统通过利用共享用户或物品进行知识转移,但常未充分利用用户行为和上下文特征等丰富数据。
-
跨领域推荐系统:一些方法专注于不同领域的CTR预测,但未针对搜索查询提取用户兴趣,未考虑不同领域特征的独特处理。
-
搜索和推荐联合学习:已有研究进行搜索和推荐的联合学习,但存在未考虑兴趣转移、未区分可转移和不可转移信息、忽视物品暴露机制差异等问题。
预备知识
-
问题表述:考虑共享用户集和物品集的推荐和搜索领域。推荐领域有用户 - 物品交互数据,搜索领域有用户查询及相关交互数据。目标是利用两个领域的历史交互预测用户点击物品的概率(CTR),模型输入包括用户、物品特征及行为历史,其中查询列表是从搜索领域增强的特征。
-
骨干模型:以DIN为例,其通过嵌入层将输入特征转换为嵌入向量,利用自适应池化建模用户兴趣,最后经MLP生成预测结果,并采用交叉熵损失函数。
-
推荐系统的扩散模型:扩散模型是一种强大的生成模型,在推荐系统中,通过正向和反向过程对用户交互向量进行处理,优化时最大化观察数据的证据下界(ELBO),其在处理用户与物品交互数据的预测和生成方面具有重要作用。
研究方法
-
兴趣对齐的下一项预测:为使查询嵌入更好地反映用户在推荐领域的偏好,按时间顺序映射推荐和搜索领域的交互记录。用自注意力顺序(SAS)编码器对查询列表编码得到,同时获取推荐领域正负样本物品的嵌入。通过定义损失函数,使更接近正样本物品嵌入,从而驱动查询嵌入与推荐领域用户兴趣对齐。
-
基于扩散数据增强的查询 - 项目对比学习
- 对比学习:从搜索域交互历史收集每个查询的正样本集,对于推荐域样本,根据用户最后查询定义对比损失,学习查询与物品的相似性和差异性。
- 扩散数据增强:针对搜索数据中大量查询无正交互物品的问题,利用扩散模型增强。将查询 - 物品交互向量按元素值分为三组,训练扩散模型后取中前个索引作为增强的用于对比学习。
-
模型训练:采用损失函数进行训练,其中和为超参数,为骨干模型的交叉熵损失,和分别为下一项预测损失和对比学习损失。
实验
-
数据集:使用KuaiSAR数据集(包括KuaiSAR - large和KuaiSAR - small)和一个工业数据集。KuaiSAR数据集来自真实平台,工业数据集包含大量记录和丰富特征,且仅对DIN、DCN和QueryRec在该数据集进行测试以节省成本。
-
数据分析
- 用户兴趣分布:通过计算Jensen - Shannon散度衡量用户在搜索和推荐领域的兴趣转移,发现至少一半用户存在明显兴趣转移。
- 领域相关性:计算和指标,表明KuaiSAR - small和KuaiSAR - large数据集的搜索和推荐领域存在相关性。
-
实验设置
- 数据处理:按用户分组并按时间排序,推荐域采用留一法划分数据集,保留同时有搜索和推荐历史的记录,并将用户历史查询作为增强特征。
- 基线模型:与DIN、PLE、DCN、SESRec、IV4Rec + 等模型比较。对SESRec和IV4Rec + 进行了适应CTR预测问题的调整。
-
实验结果:QueryRec在KuaiSAR - small、KuaiSAR - large和工业数据集上均优于基线模型。例如在KuaiSAR - small数据集上,QueryRec的AUC为0.6972,相比DIN提升了2.64%。SESRec在KuaiSAR - small表现第二,但在KuaiSAR - large表现不佳,IV4REC + 因缺乏真实文本嵌入未达预期。
-
消融研究:在KuaiSAR - small数据集上进行消融实验,结果表明仅添加查询作为额外特征无性能提升,各模块均有积极作用,且扩散模型对无点击历史查询生成正样本有助于提取查询 - 项目关系。
-
案例研究:对比对比学习中掩码样本和扩散模型生成正样本的情况,结果显示扩散模型生成正样本的对比学习AUC更高,证明扩散增强的有效性。
-
敏感性研究:比较不同扩散初始化值和对模型的影响,发现模型对其差异不敏感,具有鲁棒性。
研究结论
本文提出的QueryRec方法通过开发信息丰富的查询表示并将其融入CTR预测模型,有效促进了知识从搜索领域向推荐领域的转移。下一项预测模块和扩散增强对比学习分别增强了查询与用户兴趣的对齐和查询 - 项目关系的提取。实验和消融研究验证了各组件的有效性,为推荐领域CTR预测提供了新的有效方法。