《Dataset Regeneration for Sequential Recommendation》
作者为Mingjia Yin、Hao Wang、Wei Guo等人,来自中国科学技术大学和华为新加坡研究中心。
一、研究背景
- 传统的序列推荐(SR)系统通常采用模型中心范式,专注于使用固定数据集开发更有效的模型,但忽略了数据中的质量问题。
- 数据中心范式关注使用固定模型开发高质量数据,包括训练数据开发、推理数据开发和数据维护,本研究主要关注训练数据开发。
二、相关工作
- 序列推荐领域的相关工作包括开发复杂的模型、改进训练策略、引入自监督学习以及进行去噪序列推荐等。
- 数据中心AI在推荐系统中的相关工作包括生成保护隐私的合成数据集、为图协同过滤生成自适应图数据、为长序列生成伪造数据以及进行数据集蒸馏等。
三、问题定义
- 定义了序列推荐问题,即根据用户的交互记录预测下一个推荐项目。
- 将训练数据开发问题形式化为学习一个新的信息丰富且通用的数据集,使得目标模型更容易基于该数据集进行学习。
- 定义了数据集再生问题,即学习一个从原始数据集到新数据集的多对一映射。
- 定义了模型感知的数据集再生问题,即通过数据集个性化器为目标模型定制再生数据集。
四、方法
- 总体框架:提出了名为DR4SR的数据中心框架,用于将原始数据集再生为信息丰富且通用的数据集,并可扩展为模型感知的DR4SR+,以适应特定目标模型。
-
模型无关的数据集再生:
- 构建预训练任务:通过滑动窗口策略提取项目转移模式,构建预训练任务,为学习数据集再生器提供指导。
- 多样性促进的再生器:使用Transformer作为再生器的主要架构,包括编码器、解码器和多样性促进器,以捕获序列和模式之间的多对一映射关系。
- 使用混合推理策略进行数据集再生:采用限制性和生成性两种解码模式,以概率γ选择生成性模式,1 - γ选择限制性模式,实现探索和利用的平衡。
-
模型感知的数据集再生:
-
数据集个性化器:通过MLP计算数据样本的分数,调整训练损失的权重,以适应不同目标模型的需求。
- 高效优化数据集个性化器:将优化过程形式化为双层优化问题,通过隐式微分计算梯度,避免模型崩溃,实现高效的数据集个性化。
五、实验评估
-
实验设置:
- 数据集:使用四个公开数据集进行实验。
- 对比基线和目标模型:选择两个数据中心基线和多种目标模型进行对比。
- 评估协议:采用留一法和Recall、NDCG等排名指标进行评估。
- 实现细节:基于RecStudio实现DR4SR和目标模型,设置训练参数。
- 整体性能:DR4SR能够再生出信息丰富且通用的数据集,不同目标模型对数据集有不同偏好,数据中心和模型中心范式具有互补性。
- 消融研究:通过替换多样性促进的再生器、使用基于预定义规则提取的模式和端到端优化数据集个性化器,验证了DR4SR中各模块的有效性。
- 高级研究:包括对数据集个性化效率的分析、不同目标模型对数据样本分数的分析以及对应再生的数据形式的分析。
- 超参数敏感性:研究了多样性因子K和生成解码概率γ对模型性能的影响。
六、结论
- 引入了数据中心的数据集再生框架DR4SR,展示了其跨架构的通用性和与模型中心范式的互补性。
- 扩展的DR4SR+能够根据目标模型定制再生数据集。
- 未来将提出更全面的框架,再生各种形式的数据,并探索结合大语言模型来指导数据集再生过程。