原文发表于:2020-11-23

常见目标

以电商场景为例子,一般要优化的有以下目标:

  • CTR(点击率)
  • CVR(点击转化率)
  • collect(收藏)
  • cart(加购)
  • stay(页面停留时间)

多目标排序的难点

  • 部分⽬标数据稀疏,模型准确率低
  • 在线服务计算量⼤
  • 多个⽬标间重要性难以量化
  • 分数融合的超参难以学习
  • Rules不够智能化

多任务学习

多任务学习类似迁移学习:

  • 1、多个任务具有相似性,可以共享底层特征;
  • 2、解决数据稀疏问题;
  • 3、不同模型善于学习不同特征,特征学习更充分;
  • 4、因共享参数的引入,使得多任务学习需要更少的资源,且模型表现更好。

序列上的工作

超长行为序列

异构行为序列

负反馈行为序列

曝光未点击行为序列

其它序列

  • 点击序列

  • 转化序列

  • 内容互动行为序列

  • 搜索行为序列

一些trick

梯度阻隔

  • 稀疏目标不回传梯度到share-bottom

权重调整

GradNorm

GradNorm[2]出自论文《GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks》,发表于ICML 2018。它提出了一种根据任务学习速度动态调权的方法,使不同task的学习速度在各个训练阶段处于均衡状态。

DWA

DWA[3]出自论文《End-to-End Multi-Task Learning with Attention》,发表于CVPR 2019。

DWA对task重要度调整的核心思路,类似于GradNorm,即根据任务在学习阶段的训练速度动态调整权重。除了动态调权,该论文还基于CV领域提出了一种多目标的模型结构,以后有机会再讲论文的模型结构这部分。

从DWA的原理和计算思路,可以看出:其优点是计算方法简单,计算速度快,只需根据不同step的损失值即可得到任务权重,在任务权重计算过程中不涉及梯度更新问题;其缺点是没有考虑不同任务损失的量级差异,容易导致模型学习过程受损失量级大的任务主导。

各大公司应用

快手

share-bottom

  • 个性化门控
  • 多域门控

淘宝

DBMTL

DMR系列

RUI系列

腾讯

CGC

  • 腾讯PCG RecSys2020最佳长论文——视频推荐场景下多任务PLE模型详解 https://zhuanlan.zhihu.com/p/272708728?utm_source=wechat_timeline
  • 推荐系统遇上深度学习(九十二)-[腾讯]RecSys2020最佳长论文-多任务学习模型PLE https://blog.csdn.net/abcdefg90876/article/details/108898482

参考

  • https://blog.csdn.net/buwei0239/article/details/86656588