《LLMRec:基于大型语言模型和图增强的推荐系统》
作者为Wei Wei、Xubin Ren、Jiabin Tang等人,来自香港大学和百度。
一、研究背景
- 推荐系统中数据稀疏和侧信息质量问题是长期挑战,现有方法在处理这些问题时存在局限性,如稀疏隐式反馈信号、数据噪声、异质性和不完整性等。
二、方法概述
- LLMRec框架:利用大型语言模型(LLM)的强大能力,通过三种简单有效的基于LLM的图增强策略来增强推荐系统,包括强化用户 - 物品交互边、增强物品节点属性建模和进行用户节点画像。
-
解决的挑战:
- C1:如何使LLM通过明确增强隐式反馈信号来推理用户 - 物品交互模式。
- C2:如何确保LLM增强内容的可靠性,避免引入噪声影响结果。
三、具体方法
- LLM作为隐式反馈增强器(Q1):使用LLM作为知识感知采样器,从自然语言角度对用户 - 物品训练数据进行采样,增加潜在的有效监督信号,更好地理解用户偏好,同时缓解噪声和非交互项问题。
-
LLM基于的侧信息增强:
- 用户画像和物品属性增强(Q2):利用LLM的知识库和推理能力,总结用户画像,生成统一空间和信息丰富的物品属性。
- 侧信息整合(Q3):包括增强语义投影、协作上下文注入和特征整合三个步骤,将增强的侧信息有效地整合到推荐系统中。
-
使用去噪增强训练(Q4):
-
增强优化与噪声修剪:使用增加监督信号的BPR损失函数进行训练,并通过噪声修剪来提高增强数据的有效性,避免不可靠梯度反向传播的影响。
- 通过MAE增强增强语义特征:使用Masked Autoencoders(MAE)减少噪声增强特征的影响,通过重建目标加强特征编码器。
四、深入分析
- LLM基于的增强有助于优化:LLMRec通过自然语言空间辅助ID向量空间,提供更全面的用户偏好反映,减少噪声和未观察到的隐式反馈的影响,提高准确性和收敛速度。
- 时间复杂度分析:包括增强语义特征的投影、基于图的协作上下文学习的GNN编码器、BPR损失函数计算和特征重建损失的时间复杂度。
五、实验评估
-
实验设置:
- 数据集:使用Netflix和MovieLens数据集,包括多模态侧信息,并进行LLM数据增强。
- 实现细节:使用PyTorch实现,采用AdamW优化器,设置不同的学习率范围和LLM参数。
- 评估协议:使用Recall、NDCG和Precision等指标进行评估,采用all - ranking策略,与多种基线方法进行比较。
- 基线描述:包括一般CF方法、带侧信息的方法、数据增强方法和自监督方法。
- 性能比较(RQ1):LLMRec优于基线方法,体现了增强用户 - 物品交互边和提高侧信息质量的有效性,以及侧信息整合的重要性,同时表明现有一些方法在数据增强方面的局限性和自监督方法与LLMRec的性能差异。
- 消融和有效性分析(RQ2):通过消融实验验证了数据增强策略的有效性和去噪数据增强机制的影响,包括LLM增强的隐式反馈、用户画像增强器和侧信息增强对推荐性能的提升,以及噪声修剪和语义特征增强对模型性能的改善。
- 超参数分析(RQ3):分析了影响增强数据质量的参数,如LLM的温度、Top - p、候选数量和修剪率,以及推荐器对增强数据的敏感性,如每批增强样本数量和增强特征合并规模。
- 模型无关性属性(RQ4):通过在不同推荐器上进行实验,验证了LLMRec数据增强的有效性和可复用性,但部分结果未超过LLMRec可能是由于缺乏质量约束机制和在同一向量空间中建模协作信号的缺失。
- 成本/改进转化率(RQ5):计算了数据增强策略和LLMRec的成本和改进率(CIR),结果表明基于LLM的用户画像(U)是最具成本效益的策略,整体投资是值得的。
六、相关工作
- 内容 - 基于的推荐:现有推荐器使用辅助多模态侧知识,但数据噪声、异质性和不完整性会引入偏差,LLMRec通过LLM增强来改善数据质量。
- LLM用于推荐:LLM在推荐系统中受到关注,可用于建模用户行为和作为推理模型,但大多放弃了经典的基础模型,而本文将LLM基于的数据增强与经典CF结合。
- 推荐的数据增强:研究探索了数据增强在推荐系统中的应用,包括各种操作和技术,LLMRec使用LLM作为推理模型来增强边缘和节点特征。
七、结论
LLMRec通过分析用户交互偏好和去偏物品属性来解决稀疏隐式反馈信号和低质量侧信息的挑战,并引入去噪增强机制确保增强数据的质量。理论分析和实验结果证明了其有效性,优于现有推荐技术。未来研究方向包括将因果推理融入侧信息去偏和探索上下文感知用户偏好的反事实因素。