[2202.13556] Filter-enhanced MLP is All You Need for Sequential Recommendation
以下是对这篇论文的详细总结:
一、论文题目
《Filter - enhanced MLP is All You Need for Sequential Recommendation》
二、作者
Kun Zhou, Hui Yu, Wayne Xin Zhao, Ji - Rong Wen
三、研究背景与动机
- 深度神经网络如RNN、CNN和Transformer已被应用于序列推荐任务,但这些模型容易对含有噪声的用户行为数据过拟合。
- 受数字信号处理中过滤算法减少噪声影响的启发,作者怀疑对序列数据进行去噪能更容易捕捉用户的序列行为,从而简化Transformer并提高其鲁棒性。
四、相关工作
- 问题陈述:定义了序列推荐问题,给定用户的历史行为序列,预测下一个可能交互的项目。
- 傅里叶变换:介绍了离散傅里叶变换(DFT)和快速傅里叶变换(FFT),FFT用于将输入信号转换到频率域以过滤噪声信号。
五、实证分析与过滤算法
- 分析设置:在Amazon的Beauty和Sports数据集上进行实验,选择GRU4Rec和SASRec作为代表模型,在嵌入层和序列编码器层之间添加非参数过滤层,使用三种经典过滤算法(High - Pass Filter、Low - Pass Filter、Band - Stop Filter)。
- 结果与发现:添加Low - Pass Filter和Band - Stop Filter能提高模型性能,不同模型适合的过滤算法不同,低频率信息对序列推荐更重要;将过滤算法与all - MLP架构结合,能使简单模型超越复杂的Transformer模型,且模型更轻量,减少过拟合风险。
六、方法
- FMLP - Rec:一种基于MLP的序列推荐器,通过堆叠带有可学习滤波器的MLP块来生成序列用户偏好表示,取代了Transformer中的多头自注意力结构。
- 嵌入层:将项目的高维独热表示映射为低维密集表示,加入可学习的位置编码矩阵,并进行 dropout和层归一化操作。
- 可学习滤波器增强块:包括滤波器层和点式前馈网络,滤波器层通过FFT将输入转换到频率域,使用可学习滤波器调制频谱,再通过IFFT转换回时间域,更新序列表示,并进行跳跃连接、层归一化和dropout操作;前馈网络使用MLP和ReLU激活函数捕捉非线性特征。
- 预测层:计算用户对项目的偏好分数,采用成对排名损失优化模型参数。
- 理论分析:证明了可学习滤波器等价于循环卷积,能够捕捉序列特征,且具有更大的接收域,能更好地捕捉周期性模式。
- 讨论:与Transformer - based模型相比,FMLP - Rec去除了自注意力结构,基于MLP结构和可学习滤波器层,降低了空间和时间复杂度,能拥有与自注意力机制相同的接收域且减少了参数数量,还能捕捉周期性特征;在时间复杂度和接收域方面,与Caser和SASRec相比,FMLP - Rec具有更大的接收域和更低的时间复杂度。
七、实验
- 实验设置:在八个不同领域的数据集上进行实验,采用HR@k、NDCG@k和MRR作为评估指标,对比了多种基线模型。
- 实验结果:非序列推荐方法表现不如序列推荐方法,Transformer - based模型大多优于RNN、CNN和gate - based模型,GNN - based模型也有较好表现,FMLP - Rec在大多数数据集上表现最佳,证明了其有效性和高效性。
八、进一步分析
- 消融实验:验证了FMLP - Rec中滤波器层、前馈网络和Add & Norm操作的有效性,且可学习滤波器比经典过滤算法更有用。
- 应用于其他模型:将可学习滤波器应用于GRU4Rec、Caser、SASRec和GCSAN等基线模型,结果表明可学习滤波器能提高这些模型的性能,且FMLP - Rec仍优于这些模型。
九、相关工作
- 序列推荐:早期基于马尔可夫链,后引入神经网络,如GRU、CNN、GNN和Transformer等,并引入其他上下文信息。但这些模型易受噪声影响,本文采用可学习滤波器减少噪声。
- 全MLP模型:MLP常作为辅助模块与其他架构结合,近期一些研究提出用MLP取代CNN和自注意力网络,设计有效的MLP - based混合架构,如mixer layer、axial shift block和spatial shift block等,在图像分类和语义分割等任务中表现良好。但全MLP模型难以捕捉序列特征,本文设计的包含滤波器层的全MLP模型在序列推荐任务中表现优于其他基线模型。
十、结论
- 提出的FMLP - Rec通过可学习滤波器和全MLP架构,降低了时间复杂度,自适应地衰减了频率域中的噪声信息,能更好地捕捉周期性特征,优于多种RNN、CNN、GNN和Transformer - based基线模型。