“ Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction”由谷歌研究团队的Wang-Cheng Kang、Jianmo Ni等人撰写,探讨了大语言模型(LLMs)在用户评分预测任务中的表现,通过与传统推荐方法对比,分析其在不同设置下的优劣。

核心观点

  • LLMs在用户评分预测中的表现:研究了LLMs在零样本、少样本和微调场景下的用户评分预测能力,发现零样本和少样本LLMs虽能理解任务并给出合理评分,但性能不及传统监督推荐模型;微调后的LLMs在数据效率上表现出色,能以少量训练数据达到甚至超越传统模型的性能。
  • LLMs与传统推荐模型对比:传统推荐模型依赖大量用户交互数据,而LLMs具备强大的泛化和推理能力,通过微调可在用户评分预测任务中发挥优势。

LLMs在推荐系统中的应用背景

LLMs在多种自然语言处理任务中表现卓越,如文本生成、翻译和总结等,其成功得益于大规模数据训练、强大的泛化能力和推理能力。近期研究开始探索LLMs在推荐系统中的应用,但缺乏对不同规模LLMs与传统推荐模型全面对比的研究。

研究方法

  1. 问题表述:给定用户历史交互序列和候选项目,预测用户对候选项目的评分,用户历史交互序列包含按时间排序的项目信息及评分。
  2. 零样本和少样本预测
    • 零样本预测通过设计特定提示(prompt)让LLMs理解任务并预测评分,少样本预测则在提示中加入少量示例(如3个)。实验发现LLMs对输入提示敏感,需额外工程优化。
    • 实验结果显示,LLMs在零样本和少样本设置下能给出合理评分,部分情况下优于全局平均评分,与项目或用户平均评分相当,但均低于传统推荐模型。
  3. 微调预测
    • 选择Flan-T5系列模型进行微调实验,将评分预测任务转化为多类分类或回归任务。多类分类通过交叉熵损失优化,回归任务则使用均方误差(MSE)损失。
    • 实验表明,微调后的LLMs性能显著提升,且在数据效率上表现出色,仅需少量数据即可收敛。

实验设置

  1. 数据集:采用MovieLens-1M和Amazon-Books两个基准数据集,包含用户对电影或书籍的评分,数据集中用户、项目数量及训练、测试示例数量各异,且对数据进行了预处理和划分。
  2. 评估指标:使用均方根误差(RMSE)、平均绝对误差(MAE)评估评分预测准确性,使用ROC-AUC评估模型排名能力。
  3. 基线模型和LLMs选择
    • 基线模型包括传统推荐模型(如矩阵分解MF、多层感知机MLP)和基于属性与评分感知的顺序评分预测器(Transformer-MLP),通过超参数调优确保性能。同时设置了全局平均评分、候选项目平均评分和用户过去平均评分三个启发式基线。
    • LLMs选择了GPT-3(text-davinci-003)、ChatGPT和Flan-U-PaLM等不同规模模型进行零样本和少样本学习,选择Flan-T5-Base和Flan-T5-XXL进行微调学习。

实验结果与分析

  1. 零样本和少样本LLMs(RQ1)
    • LLMs在零样本和少样本设置下能理解任务并给出合理评分,多数情况下优于全局平均评分,但低于传统推荐模型。例如,text-davinci-003在Movielens上略逊于候选项目平均评分,在Amazon-Books上表现更好。少样本实验中,AUC有所提升,但RMSE和MAE无明显规律。
  2. LLMs与传统推荐模型对比(RQ2)
    • 微调LLMs性能显著优于零样本和少样本LLMs,且选择合适的优化目标(如回归损失)对微调效果至关重要。与最强基线Transformer-MLP对比,微调后的Flan-T5-XXL在MAE和AUC上表现更好,更适合排名任务。
  3. 模型规模的影响(RQ3)
    • 不同规模的LLMs均可通过零样本或少样本提示进行评分预测,模型规模大于100B的LLMs在零样本设置下表现较好。微调实验中,Flan-T5-XXL在两个数据集上均优于Flan-T5-Base。
  4. LLMs的数据效率(RQ4)
    • 对比LLMs和传统推荐模型的收敛曲线,发现两者在RMSE上均能在少量数据下收敛到合理性能,但在AUC上,LLMs只需少量数据即可达到较好性能,而Transformer+MLP需要更多训练数据。

研究结论

零样本和少样本LLMs在用户评分预测任务中落后于传统监督方法,凸显了将目标数据集分布纳入LLMs的重要性。微调后的LLMs在关键指标上能缩小与精心设计基线的差距,基于LLMs的推荐器具有数据效率高、特征处理和建模简单等优点。未来将通过提示调优进一步提升性能,探索LLMs在推荐系统中的新应用。