论文地址
[2406.10450] TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation
论文介绍
“TokenRec- Learning to Tokenize ID for LLM-based Generative Recommendations”由Haohao Qu等人撰写,提出了一种基于LLM的推荐系统框架TokenRec,通过有效的ID标记化策略和高效的检索范式来解决现有方法在利用LLM进行推荐时的不足。
研究背景
-
推荐系统的发展:推荐系统是解决信息过载问题的重要技术,协同过滤是其核心技术之一。近年来,大型语言模型(LLMs)的发展为推荐系统带来了新的机遇和挑战。
-
现有方法的局限性:现有基于LLM的推荐系统在用户和项目标记化方面存在局限性,无法有效捕捉高阶协同知识,也难以推广到未见过的用户和项目。
TokenRec框架
-
总体设计:由Masked Vector - Quantized(MQ)标记器和生成式检索模块构成。MQ标记器解决LLM - based推荐中ID标记化问题,将用户和项目表示为离散标记;生成式检索模块通过LLM进行用户建模,检索K近邻项目生成个性化推荐列表。
-
MQ标记器的核心技术
- 协同知识捕捉:通过对基于GNN的推荐方法学习到的表示进行矢量量化,将高阶协同知识融入潜在表示中,为具有相似协同知识的用户和项目分配相似的标记。
- 掩码操作:对输入的表示应用元素级掩码策略,随机生成掩码,增强标记器的泛化能力。
- K - way编码器和码本:使用K - way编码器学习对应的K - way码本,对掩码后的表示进行量化,将其转换为离散标记。
- K - to - 1解码器:对量化后的标记进行输入重建,通过平均池化和多层感知机生成重建的输入表示。
- 学习目标:设计重建损失、码本损失和承诺损失,共同更新K - way编码器、码本和K - to - 1解码器。
-
生成式检索模块
- 标记化和提示:利用MQ标记器学习到的OOV标记对用户和项目ID进行标记化,同时设计提示指令,引导LLM理解用户偏好。
- 用户建模:通过选择提示模板和对应的ID标记,将其输入LLM backbone,生成反映用户对下一个项目偏好的隐藏表示。
- 生成式检索:将隐藏状态投影到潜在表示,通过测量与基于GNN的推荐方法学习到的项目表示的相似性得分,检索K - 近邻项目,生成个性化推荐列表。
实验结果
-
实验设置
- 数据集:使用Amazon - Beauty、Amazon - Clothing、LastFM和MovieLens 1M四个基准数据集。
- 基线方法:比较了包括MF、NeuCF等传统协同过滤方法,SASRec、BERT4Rec等顺序推荐方法,以及P5、CID等基于LLM的推荐方法。
- 评估指标:采用top - K命中率(HR@K)和top - K归一化折损累计增益(NDCG@K)作为评估指标。
- 超参数设置:对码本数量K、每个码本的标记数量L和掩码操作的比率ρ等超参数进行搜索。
-
性能比较:TokenRec在所有数据集上均取得了最佳性能,显著优于所有基线方法。即使仅使用用户ID标记,TokenRec也能超越大多数基线方法,表明其在协同推荐中的优越性能。
-
泛化能力评估:TokenRec在处理新用户和项目时表现出良好的泛化能力,性能下降幅度较小,优于其他基于LLM的推荐方法。
-
效率评估:TokenRec的推理效率显著高于基于LLM的推荐基线方法,通过生成式检索范式避免了耗时的自动回归解码和束搜索过程。
-
消融研究:对TokenRec的关键组件进行消融实验,结果表明每个组件都对整体性能有贡献,高阶协同知识和K - way框架对性能提升尤为重要。
-
超参数分析:对掩码比率ρ、码本设置K和L进行分析,结果表明适当的掩码比率和码本设置可以提高推荐性能。