[2403.12384] AlignRec: Aligning and Training in Multimodal Recommendations

AlignRec: Aligning and Training in Multimodal Recommendations提出了一种名为AlignRec的多模态推荐框架,旨在解决多模态推荐中的对齐问题,通过设计多种对齐目标和训练策略,有效提升了推荐性能。

  1. 引言

    • 研究背景:多模态推荐在在线服务中愈发重要,但现有方法在处理多模态信息与ID特征时存在对齐问题。同时,多模态大语言模型的发展凸显了模态对齐的重要性,而该问题在多模态推荐领域尚未得到充分研究。
    • 面临挑战:一是如何在包含多种模态和ID特征的多模态推荐中进行有效对齐缺乏设计;二是端到端联合优化对齐和推荐任务因内容模态与分类模态学习速度不一致,难以训练且计算开销大;三是缺乏对内容模态对多模态推荐影响的直接评估方法,现有评估方式间接且无法考量特征质量。
  2. 相关工作

    • 多模态推荐:早期方法将视觉或文本特征与ID特征拼接,忽略了两者的不对齐问题。近期方法尝试缩短项目ID与内容特征的距离或融合视觉和文本信息,但仍存在不足,如未显式建模对齐或受模态不兼容问题影响。
    • 视觉语言预训练:该技术在理解视觉和文本信息方面有效,但相关评估指标在多模态推荐中缺失,导致多模态推荐方法大多使用表现力较弱的特征。
  3. 问题表述:定义用户、项目、唯一ID、模态信息、用户历史行为数据等符号,构建用户 - 项目二分图。多模态推荐的目标是基于图和多种特征,通过得分函数预测用户对项目的偏好,并利用贝叶斯个性化排序(BPR)优化该目标。

  4. AlignRec框架

    • 框架概述:由三个对齐模块和一个中间评估模块组成。通过三个对齐目标解决多模态推荐中的对齐问题,并设计了相应的训练策略和中间评估协议。
    • 架构设计:包含多模态编码器模块、聚合模块和融合模块。多模态编码器模块采用基于Transformer的结构,通过交叉注意力对齐视觉和文本信息,输出统一的多模态表示。聚合模块使用LightGCN聚合邻居信息,融合模块将多模态和基于ID的表示相融合,用于推荐。
    • 三个对齐目标:内容内对齐(ICA)通过掩码数据建模技术,对齐视觉和文本模态,损失函数为掩码图像建模(MIM)和掩码语言建模(MLM)之和。内容 - 类别对齐(CCA)利用对比学习拉近多模态与ID隐藏表示的距离,并引入正则化项约束多模态隐藏表示的相似性。用户 - 项目对齐(UIA)通过余弦相似性损失对齐用户和其交互项目的表示空间。
    • 训练和评估策略:训练策略上,先预训练内容内对齐任务,再训练其余两个对齐任务和推荐目标,以解决不同模态学习速度不一致的问题。中间评估协议包括零样本推荐、Item - CF推荐和掩码模态推荐,用于评估多模态编码器生成的特征对推荐的有效性。
  5. 实验

    • 实验设置:在亚马逊评论数据集的三个类别上进行实验,对比多种基于协同过滤和多模态推荐的方法,使用NDCG@K和Recall@K作为评估指标,基于MMRec框架使用PyTorch实现。
    • 整体性能:AlignRec在三个数据集上均优于现有基线方法,在Recall@20指标上相较于第二好的方法提升显著,表明其对齐和训练策略有效,且能正确对项目进行排序。
    • 中间评估:实验表明,AlignRec生成的多模态特征在零样本、Item - CF和掩码模态推荐任务中的Recall指标上优于原始亚马逊特征和CLIP特征,在缺失模态场景下更鲁棒,且文本模态对多模态推荐更为重要。
    • 深入分析:用AlignRec生成的特征训练基线方法,性能优于使用亚马逊和CLIP特征,且内存效率更高。消融实验表明,框架的各个组件均对性能有贡献。超参数研究发现,内容 - 类别对齐和用户 - 项目对齐的权重存在最佳值。可视化结果验证了对齐策略的必要性和有效性。
    • 长尾项目推荐:在长尾项目推荐场景中,AlignRec表现优于现有方法,表明其能获取有用多模态信息并推广到长尾项目推荐中。
  6. 结论:提出的AlignRec框架通过三个对齐任务和有效训练策略提升了多模态推荐性能,新的评估协议验证了多模态表示的有效性。未来可在在线社交媒体平台上评估和部署该框架。