1. 引言

    • 推荐系统对帮助用户发现相关内容至关重要,大语言模型(LLMs)在自然语言处理领域的成功促使其应用于推荐系统,以提升推荐效果。
    • LLMs能够提取高质量文本特征表示并利用外部知识,为解决推荐系统的数据稀疏性和提高推荐准确性提供可能,其生成能力还可实现更具创新性和个性化的推荐,如提供解释、支持用户自定义提示等。
    • 本文旨在对基于LLM的推荐系统进行全面综述,分类并分析现有方法,探讨其优势、挑战和未来研究方向,为相关研究提供参考。
  2. 建模范式与分类

    • 建模范式

    • LLM Embeddings + RS:将LLM作为特征提取器,为物品和用户生成嵌入,传统推荐模型利用这些嵌入进行推荐任务。

    • LLM Tokens + RS:基于输入的物品和用户特征生成标记,挖掘潜在偏好,融入推荐决策过程。
    • LLM as RS:直接将预训练的LLM转化为推荐系统,输入任务指令、用户画像和行为等信息,输出推荐结果。
    • 分类:根据训练方式,将基于LLM的推荐方法分为判别式(Discriminative LLMs)和生成式(Generative LLMs)两类,判别式适用于第一种建模范式,生成式支持后两种建模范式,以下分别详细介绍。
  3. 判别式LLMs在推荐中的应用

    • 判别式LLMs主要基于BERT系列模型,通过微调等训练策略将预训练模型与推荐领域数据对齐。
    • 微调(Fine - tuning)

    • 过程:用预训练模型参数初始化,在推荐数据集上训练,更新模型参数以适应推荐任务,学习目标因阶段而异。

    • 应用:在用户表示学习、排名任务、其他特定任务(如组推荐、搜索/匹配、CTR预测等)以及处理序列表示学习和内容 - 基于推荐等方面有广泛应用,例如U - BERT通过预训练和微调学习用户表示,BECR利用BERT进行轻量级复合重新排名等。
    • 提示调整(Prompt Tuning)

    • 方法:利用硬/软提示和标签词映射器,使推荐调整目标与预训练损失对齐,通过掩码语言模型预测实现。

    • 案例:如利用BERT的掩码语言模型头挖掘项目类型理解,开发带提示的对话推荐系统,在新闻推荐中重新定义预测任务为掩码预测任务等。
  4. 生成式LLMs在推荐中的应用

    • 生成式LLMs具有更好的自然语言生成能力,通过将推荐任务转化为自然语言任务,利用上下文学习、提示调整和指令调整等技术生成推荐结果,根据是否调整参数分为非调整和调整范式。
    • 非调整范式

    • 提示(Prompting):设计合适指令和提示帮助LLMs理解和解决推荐任务,包括评估LLMs在常见推荐任务上的性能、为不同任务设计提示、探索用LLMs构建模型特征(如内容增强、用户特征生成等)以及将LLMs作为推荐系统控制器(如设计交互式推荐框架、提出新推荐框架等)。

    • 上下文学习(In - context Learning):通过在提示中添加示例让LLMs更好理解任务,如在顺序推荐中扩充输入序列添加示例,但相关研究较少,存在示例选择和数量对推荐性能影响等问题。
    • 调整范式

    • 微调(Fine - tuning):与判别式LLMs的微调类似,将LLMs作为编码器提取用户或项目表示,在下游推荐任务特定损失函数上微调参数,如GPTRec基于GPT - 2进行生成式顺序推荐,研究不同规模LLMs在评分预测任务中的性能等。

    • 提示调整(Prompt Tuning):LLMs根据用户/项目信息生成用户偏好或推荐项目,可直接微调或利用提示学习提高性能,还涉及控制输出、结合传统协同模型以及在特定领域应用等方面,如TALLRec通过两阶段训练生成推荐反馈,GenRec直接生成推荐项目等。
    • 指令调整(Instruction Tuning):对LLMs进行多任务指令调整,使其更好对齐人类意图,实现零样本泛化能力,如在不同类型指令上微调T5和M6模型,设计通用指令格式并生成大量数据进行指令调整等。
  5. 研究发现与挑战

    • 模型偏差

    • 位置偏差:推荐系统中输入信息的文本序列形式可能导致LLMs产生位置偏差,影响排名结果,现有解决方案适应性不足。

    • 流行度偏差:LLMs排名受候选项目流行度影响,导致推荐缺乏多样性,解决该问题具有挑战性。
    • 公平性偏差:预训练语言模型存在与敏感属性相关的公平性问题,影响推荐公正性,解决此问题至关重要。
    • 个性化偏差:将协同过滤信号引入LLMs进行个性化推荐面临挑战,与传统模型相比,LLMs在个性化推荐方面的能力转化存在困难。
    • 推荐提示设计

    • 用户/项目表示:现有基于LLM的方法在表示用户和项目时存在不足,将用户异构行为序列转化为自然语言进行偏好建模具有挑战性,如何在提示中有效纳入类似ID的特征以提高个性化推荐性能也是问题。

    • 有限上下文长度:LLMs的上下文长度限制影响用户行为序列和候选项目数量,现有解决方法需进一步验证和研究。
    • 有潜力的能力

    • 零/少样本推荐能力:LLMs在多领域数据集的实验中展现出零/少样本推荐能力,有望缓解冷启动问题,但在示例选择和跨领域验证等方面有待进一步探索。

    • 可解释能力:生成式LLMs的自然语言生成能力可用于解释推荐,初步实验表明其有潜力,但微调后的性能有待进一步研究。
    • 评估问题

    • 生成控制:LLMs作为推荐系统时,输出可能偏离期望格式,在列表式推荐任务中表现不佳,解决输出控制问题是当务之急。

    • 评估标准:对于LLMs的生成式推荐任务,缺乏合适的评估标准,现有评估指标难以衡量其生成推荐能力。
    • 数据集:当前研究多使用小规模数据集,无法充分反映LLMs的推荐能力,且数据集中项目信息可能影响对LLMs零/少样本学习能力的评估,缺乏合适的基准数据集。
  6. 结论与展望

    • 本文对基于LLM的推荐系统研究进行综述,分类并详细阐述了判别式和生成式模型的应用,明确了相关训练方式的定义和区别,总结了研究中的常见发现和挑战。
    • 未来,随着计算能力提升和人工智能发展,LLMs在推荐系统中的应用将更广泛和深入,有望实现更实时、个性化和多模态输入的推荐,同时需考虑伦理因素,融入公平性、问责制和透明度。本文为相关研究提供了全面的基础,有助于推动该领域的进一步发展。