RecSysPapers/Multi-Task/[2020][Tencent][PLE] Progressive Layered Extraction (PLE) - A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations.pdf at main · tangxyw/RecSysPapers · GitHub

一、论文题目

《Progressive Layered Extraction (PLE): A Novel Multi - Task Learning (MTL) Model for Personalized Recommendations》

二、作者

Hongyan Tang, Junning Liu, Ming Zhao, Xudong Gong

三、研究背景与动机

  • 多任务学习(MTL)在推荐系统中应用广泛,但现有MTL模型在处理现实世界中复杂且相互竞争的任务相关性时,常出现性能退化和负迁移现象,还存在跷跷板现象,即一个任务性能的提高往往以牺牲其他任务的性能为代价。

四、主要贡献

  • 通过大规模实验观察到MTL模型中存在的跷跷板现象,并指出现有模型未能解决该问题。
  • 提出一种新颖的MTL模型Progressive Layered Extraction(PLE),通过独特的共享结构设计提高了共享学习效率,进一步解决了跷跷板现象和负迁移问题。
  • 在工业和公共基准数据集上进行了广泛的离线实验,验证了PLE的有效性。
  • 在腾讯大规模内容推荐平台上的在线A/B测试结果表明,PLE相较于现有MTL模型在观看次数和观看时间上有显著提升,已成功部署到推荐系统中。

五、相关工作

  • 多任务学习模型:传统的硬参数共享结构可能因任务冲突导致负迁移;一些模型如交叉缝合网络、水闸网络、MOE、MMOE等通过学习线性组合或使用门控网络来融合表示,但未能解决跷跷板现象;一些工作利用AutoML方法寻找网络结构,但存在结构设计假设简化、表达能力受限和搜索成本高等问题。
  • 多任务学习在推荐系统中的应用:一些研究将传统推荐算法与MTL结合,但这些基于因子分解的模型表达能力较低;硬参数共享在一些DNN推荐系统中应用,但常遭受负迁移和跷跷板现象;一些推荐系统应用了具有更高效共享学习机制的MTL模型,如利用层次多指针共注意力或MMOE,但仍存在一些问题,而本文提出的PLE模型通过明确分离任务共享和特定专家,并采用新颖的渐进分离路由,在实际视频推荐系统中取得了显著改进。

六、跷跷板现象在推荐系统中的多任务学习

  • MTL排名系统:以腾讯新闻的MTL排名系统为例,介绍了其用于视频推荐的多个目标,如点击、分享、评论等,以及离线训练和在线推荐的过程。其中,VCR(View Completion Ratio)和VTR(View - Through Rate)是两个重要目标,它们的相关性复杂且样本依赖。
  • 跷跷板现象分析:通过实验对比单任务模型和现有MTL模型在VCR和VTR任务组上的表现,发现硬参数共享和一些模型存在明显的负迁移,而MMOE虽然在一定程度上处理了任务差异和样本差异,但仍未完全解决复杂任务相关性带来的问题。PLE模型通过明确分离共享和任务特定专家,并采用渐进分离路由,在这两个任务上取得了显著改进。

七、渐进分层提取(PLE)

  • 定制门控控制(CGC):通过明确分离共享和任务特定专家,引入门控网络进行选择性融合,使不同类型的专家能专注于学习不同知识,有效地平衡任务并处理任务冲突和样本相关的相关性。
  • 渐进分层提取(PLE):将CGC扩展为具有多级门控网络和渐进分离路由的模型,以提取更高层次的共享信息。PLE采用渐进分离路由,从所有下层专家中吸收信息,提取更高层次的共享知识,并逐渐分离任务特定参数,实现更高效和灵活的联合表示学习和共享。
  • 联合损失优化:在多任务学习中,联合损失通常是各任务损失的加权和。本文优化联合损失函数,解决了现实推荐系统中存在的样本空间异构和损失权重选择敏感的问题,通过考虑样本空间的联合和动态调整损失权重,提高了MTL模型的训练效果。

CGC结构图: image_2024-09-11_21-20-34.jpg

PLE结构图: image_2024-09-11_21-20-59.jpg

八、实验

  • 在腾讯视频推荐系统上的评估

    • 数据集:收集腾讯新闻视频推荐系统8天的用户日志,包含4692.6万用户、268.2万视频和9.95亿样本。
    • 基线模型:与单任务模型、不对称共享、定制共享、交叉缝合网络、水闸网络、MMOE等进行对比,并将MMOE扩展为ML - MMOE进行公平比较。
    • 实验设置:VCR预测为回归任务,其他任务为二分类任务,采用三层MLP网络,实施专家为单层网络并调整超参数。
    • 评估指标:除了AUC和MSE等常见指标,还定义了MTL增益来定量评估多任务学习相对于单任务模型的收益。
    • 实验结果:PLE在复杂和正常相关性任务组以及多个任务的场景中均显著优于基线模型,在在线指标上也有显著提升,并已部署到腾讯平台。
    • 在公共数据集上的评估

    • 数据集:包括合成数据、census - income数据集和Ali - CCP数据集。

    • 实验设置:采用三层MLP网络,调整超参数与之前实验类似。
    • 实验结果:PLE在不同相关性和应用场景中均表现出稳定的优势,消除了跷跷板现象并优于其他模型。
    • 专家利用率分析:通过分析所有基于门控的模型在工业数据集VTR / VCR任务组中的专家利用率,发现CGC的结构设计有助于更好地实现不同专家之间的差异化,PLE中共享专家对塔网络输入的影响更大,表明共享更高层次更深层的表示具有价值,渐进分离路由提供了更好的联合路由和学习方案。

九、结论

本文提出的PLE模型通过明确分离任务共享和特定参数,并引入创新的渐进路由方式,避免了负迁移和跷跷板现象,实现了更高效的信息共享和联合表示学习。离线和在线实验结果表明,PLE相较于现有MTL模型有显著且一致的改进。未来的工作将重点探索分层任务组相关性。