论文：Does Every Data Instance Matter? Enhancing Sequential Recommendation by Eliminating Unreliable Data（BERD）

标签: 论文更新于: 2024/09/05 阅读:121

以下是对这篇论文的详细总结：

一、论文题目

《Does Every Data Instance Matter? Enhancing Sequential Recommendation by Eliminating Unreliable Data》

二、作者

Yatong Sun, Bin Wang, Zhu Sun, Xiaochun Yang

三、研究背景与动机

传统的序列推荐系统（SRSs）假设输入与目标相关，但用户可能会无意点击与偏好不一致的项目，导致存在不可靠实例（目标与输入不匹配），此前研究较少关注此问题。
通过评估现有SRSs，验证了不可靠实例的存在及其严重性，强调了消除不可靠数据对提高SRSs性能的必要性。

四、数据实例可靠性分析

数据可靠性测量：借助项目属性（如类别和标签）和项目共现关系，定义了数据可靠性测量方法，以量化每个实例中输入与目标之间的匹配程度。
不可靠数据的存在和严重性：通过在四个真实世界数据集上评估七种先进的SRSs，验证了不可靠实例的存在及其严重性，以及消除它们对提高SRSs性能的必要性。
不可靠数据的特征：
- 观察1：不可靠实例通常具有较高的训练损失，但高损失实例不一定不可靠，也可能是由模糊的序列模式导致的不确定实例。
- 观察2：高损失也可能是由具有模糊序列模式的可靠但不确定实例引起的，这些模式与偏好频繁变化的不确定用户或与各种后续项目共现的不确定项目相关。

五、提出的BERD框架

框架概述：BERD通过消除不可靠数据来提高SRSs的推荐性能，主要由四个模块组成，包括基于UGCN的序列建模、实例不确定性建模、扩展目标函数和不可靠实例过滤。
序列建模与UGCN：提出UGCN，通过限制不确定性高的邻居节点对用户和项目嵌入的影响，以及对不确定性高的用户和项目进行补偿，来提取更准确的序列模式，降低实例不确定性。
实例不确定性建模：将用户在某时刻的偏好建模为高斯分布的均值，协方差表示提取偏好的不确定性（即实例不确定性），并将实例不确定性量化为多元高斯分布的熵。
扩展目标函数：通过扩展传统推荐目标函数，引入采样损失和不确定性正则化器，来准确建模每个实例的推荐损失和不确定性。
不可靠实例过滤：根据实例的推荐损失和不确定性，过滤掉高损失但低不确定性的不可靠实例。

六、实验与分析

数据集：采用四个数据集，包括ML - 1M、Steam、CD和Elect，它们在领域、大小、稀疏度水平和不可靠数据比例等方面有所不同。
基线模型：包括BPRMF、FPMC、GRU4Rec、Caser、SASRec、BERT4Rec、GC - SAN和HGN等。
评估协议：采用HR、NDCG和MRR来评估排名质量，将每个用户的最后两次交互分为验证集和测试集，其余用于训练。
实验结果：
- BERD在所有数据集上均取得最佳性能，表明其优于其他对比模型。
- 通过消融分析验证了BERD中每个模块的有效性。
- 超参数分析表明，α的最佳选择在0.05 - 0.10之间，Z > 3足够达到良好性能，λ的最优设置在0.01到0.1之间，BERD对γ相对不敏感。
- 可视化结果表明，BERD能够从高不确定性实例中逐步挖掘出不可靠实例。

七、结论

首次定义了SRSs中的不可靠实例，并验证了其存在和严重性，强调了消除它们对提高SRSs性能的必要性。
通过两个观察结果设计了BERD来检测不可靠实例，通过高斯分布建模每个实例的损失和不确定性，并通过新颖的UGCN从高不确定性实例中挖掘不可靠实例。
广泛的实验验证了BERD的优越性，并且详细的消融研究进一步证实了BERD每个模块的有效性。