论文地址
论文总结
《Alleviating Cold-start Problem in CTR Prediction with A Variational Embedding Learning Framework》总结
-
研究背景:
-
冷启动问题: 在线广告中,冷启动问题通常由长尾现象和新用户、新广告的实时更新导致,这使得CTR预测任务受到困扰。
-
现有方法的不足: 现有的解决冷启动问题的方法大多基于点估计,容易导致孤立和不可靠的嵌入,且模型容易过拟合。
-
-
相关工作:
-
冷启动推荐: 分为基于内容的方法和涉及元学习的方法,前者引入用户或广告的丰富属性来获得更稳健的嵌入,后者通过精心设计的训练过程和样本分区来将知识从其他用户或广告转移到冷启动对象,但它们都基于点估计,存在风险和过拟合问题。
-
变分推断在推荐中的应用: 变分推断(VI)已应用于推荐,但与自编码器结合,集中于协同过滤,而本文将VI应用于判别模型(CTR预测任务)来缓解冷启动问题。
-
-
方法:
-
预备知识:
-
CTR预测问题公式化: CTR预测是一个监督逻辑回归任务,通过Embedding和MLP范式将特征ID索引编码为低维表示,然后通过sigmoid函数得到估计的CTR。
-
变分推断: 通过最大化证据下界(ELBO)来学习潜在变量的后验分布,避免计算不可行性。
-
点估计的冷启动问题: 点估计方法中,冷启动用户和广告的嵌入点容易孤立,且模型容易过拟合。
-
分布估计:
-
变分嵌入框架: 提出变分嵌入学习框架(VELF),通过高斯假设和变分推断来预测用户和广告嵌入的分布,目标函数为ELBO,通过引入参数α来控制模型拟合数据和近似后验分布与先验分布接近程度的权衡。
-
均值场变分嵌入框架: 基于均值场理论,假设用户和广告的潜在嵌入相互独立,各自受不同因素控制。
-
正则化先验: 通过将参数化先验逼近标准正态超先验来正则化先验,以减轻过拟合风险。
-
训练与分布: 通过神经网络参数化后验分布和先验分布,使用重参数化技巧从估计的后验分布中采样用户嵌入,将用户、广告、上下文和属性的嵌入连接起来作为判别模型的输入,通过最大化可微分的ELBO来联合学习变分参数和判别模型参数。
-
预测与分布: 使用估计后验的中心和参数化先验的中心(即分布的均值)进行预测,通过一个变体的sigmoid函数控制权重,以平衡频繁和新的或极不频繁的ID的后验和先验。
-
-
实验:
-
数据集: 使用三个公开数据集(MovieLens - 1M、Taobao Display Ad Click、CIKM2019 EComm AI),并准备了不同的测试集来评估对新用户/项目和不频繁用户/项目的推荐性能。
-
基线: 分为两组,第一组是处理冷启动问题的最先进方法(DropoutNet、MWUF),第二组是用于整体推荐的常见特征交叉技术(DeepFM、Wide&Deep、DCN、xDeepFM、PNN)。
-
实验设置: 在每个数据集上使用相同的模型设置,采用AUC作为主要指标,并引入RelaImpr指标来衡量相对改进,使用mini - batch Adam优化,学习率从特定范围搜索,MovieLens - 1M数据集的批量大小为256,其他数据集为4096。
-
与现有方法的比较(RQ1): VELF在三个数据集上均优于所有基线,在“新”和“不频繁”测试数据集上的AUC改进比“所有”测试数据集更显著,表明VELF能有效缓解CTR预测中的冷启动问题;VELF在不同数据集上的表现与其他方法相比有一定的特点和原因。
-
泛化实验(RQ2): 在MovieLens - 1M数据集上,将VELF与DropoutNet和MWUF在另外四种流行的网络骨干(Wide&Deep、PNN、DCN和xDeepFM)上进行比较,结果表明VELF在各种基础模型上都能始终取得最佳性能。
-
消融研究(RQ3): 通过在MovieLens - 1M数据集上进行消融研究,证明了分布估计优于点估计,参数化先验可以提高泛化能力,约束参数化先验接近正常超先验有助于进一步提高泛化能力。
-
-
结论:
-
提出VELF框架: 通过将嵌入学习视为分布估计过程,利用贝叶斯推理共享用户和广告之间的统计强度,并开发了参数化和正则化的先验机制来抑制过拟合,嵌入分布和判别式CTR预测网络参数以端到端的方式学习。
-
实验效果: 在多个推荐任务上的实验表明,具有VELF的CTR模型可以取得更好的性能。
-
未来工作: 包括基于VELF对用户和广告进行交互建模,以及在VELF下进行特定的特征交叉技术研究。
-