论文：TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation

论文地址

[2406.10450] TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation

论文介绍

“TokenRec- Learning to Tokenize ID for LLM-based Generative Recommendations”由Haohao Qu等人撰写，提出了一种基于LLM的推荐系统框架TokenRec，通过有效的ID标记化策略和高效的检索范式来解决现有方法在利用LLM进行推荐时的不足。

研究背景

推荐系统的发展：推荐系统是解决信息过载问题的重要技术，协同过滤是其核心技术之一。近年来，大型语言模型（LLMs）的发展为推荐系统带来了新的机遇和挑战。
现有方法的局限性：现有基于LLM的推荐系统在用户和项目标记化方面存在局限性，无法有效捕捉高阶协同知识，也难以推广到未见过的用户和项目。

TokenRec框架

总体设计：由Masked Vector - Quantized（MQ）标记器和生成式检索模块构成。MQ标记器解决LLM - based推荐中ID标记化问题，将用户和项目表示为离散标记；生成式检索模块通过LLM进行用户建模，检索K近邻项目生成个性化推荐列表。
MQ标记器的核心技术
- 协同知识捕捉：通过对基于GNN的推荐方法学习到的表示进行矢量量化，将高阶协同知识融入潜在表示中，为具有相似协同知识的用户和项目分配相似的标记。
- 掩码操作：对输入的表示应用元素级掩码策略，随机生成掩码，增强标记器的泛化能力。
- K - way编码器和码本：使用K - way编码器学习对应的K - way码本，对掩码后的表示进行量化，将其转换为离散标记。
- K - to - 1解码器：对量化后的标记进行输入重建，通过平均池化和多层感知机生成重建的输入表示。
- 学习目标：设计重建损失、码本损失和承诺损失，共同更新K - way编码器、码本和K - to - 1解码器。
生成式检索模块
- 标记化和提示：利用MQ标记器学习到的OOV标记对用户和项目ID进行标记化，同时设计提示指令，引导LLM理解用户偏好。
- 用户建模：通过选择提示模板和对应的ID标记，将其输入LLM backbone，生成反映用户对下一个项目偏好的隐藏表示。
- 生成式检索：将隐藏状态投影到潜在表示，通过测量与基于GNN的推荐方法学习到的项目表示的相似性得分，检索K - 近邻项目，生成个性化推荐列表。

实验结果

实验设置
- 数据集：使用Amazon - Beauty、Amazon - Clothing、LastFM和MovieLens 1M四个基准数据集。
- 基线方法：比较了包括MF、NeuCF等传统协同过滤方法，SASRec、BERT4Rec等顺序推荐方法，以及P5、CID等基于LLM的推荐方法。
- 评估指标：采用top - K命中率（HR@K）和top - K归一化折损累计增益（NDCG@K）作为评估指标。
- 超参数设置：对码本数量K、每个码本的标记数量L和掩码操作的比率ρ等超参数进行搜索。
性能比较：TokenRec在所有数据集上均取得了最佳性能，显著优于所有基线方法。即使仅使用用户ID标记，TokenRec也能超越大多数基线方法，表明其在协同推荐中的优越性能。
泛化能力评估：TokenRec在处理新用户和项目时表现出良好的泛化能力，性能下降幅度较小，优于其他基于LLM的推荐方法。
效率评估：TokenRec的推理效率显著高于基于LLM的推荐基线方法，通过生成式检索范式避免了耗时的自动回归解码和束搜索过程。
消融研究：对TokenRec的关键组件进行消融实验，结果表明每个组件都对整体性能有贡献，高阶协同知识和K - way框架对性能提升尤为重要。
超参数分析：对掩码比率ρ、码本设置K和L进行分析，结果表明适当的掩码比率和码本设置可以提高推荐性能。

论文：TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation

论文地址

论文介绍

研究背景

TokenRec框架

实验结果

论文相关文章

推荐系统相关文章

最近热门

最常浏览