原文发表于:2020-11-23
常见目标
以电商场景为例子,一般要优化的有以下目标:
- CTR(点击率)
- CVR(点击转化率)
- collect(收藏)
- cart(加购)
- stay(页面停留时间)
多目标排序的难点
- 部分⽬标数据稀疏,模型准确率低
- 在线服务计算量⼤
- 多个⽬标间重要性难以量化
- 分数融合的超参难以学习
- Rules不够智能化
多任务学习
多任务学习类似迁移学习:
- 1、多个任务具有相似性,可以共享底层特征;
- 2、解决数据稀疏问题;
- 3、不同模型善于学习不同特征,特征学习更充分;
- 4、因共享参数的引入,使得多任务学习需要更少的资源,且模型表现更好。
序列上的工作
超长行为序列
异构行为序列
负反馈行为序列
曝光未点击行为序列
其它序列
-
点击序列
-
转化序列
-
内容互动行为序列
-
搜索行为序列
一些trick
梯度阻隔
- 稀疏目标不回传梯度到share-bottom
权重调整
GradNorm
GradNorm[2]出自论文《GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks》,发表于ICML 2018。它提出了一种根据任务学习速度动态调权的方法,使不同task的学习速度在各个训练阶段处于均衡状态。
DWA
DWA[3]出自论文《End-to-End Multi-Task Learning with Attention》,发表于CVPR 2019。
DWA对task重要度调整的核心思路,类似于GradNorm,即根据任务在学习阶段的训练速度动态调整权重。除了动态调权,该论文还基于CV领域提出了一种多目标的模型结构,以后有机会再讲论文的模型结构这部分。
从DWA的原理和计算思路,可以看出:其优点是计算方法简单,计算速度快,只需根据不同step的损失值即可得到任务权重,在任务权重计算过程中不涉及梯度更新问题;其缺点是没有考虑不同任务损失的量级差异,容易导致模型学习过程受损失量级大的任务主导。
各大公司应用
快手
share-bottom
- 个性化门控
- 多域门控
淘宝
DBMTL
DMR系列
RUI系列
腾讯
CGC
- 腾讯PCG RecSys2020最佳长论文——视频推荐场景下多任务PLE模型详解 https://zhuanlan.zhihu.com/p/272708728?utm_source=wechat_timeline
- 推荐系统遇上深度学习(九十二)-[腾讯]RecSys2020最佳长论文-多任务学习模型PLE https://blog.csdn.net/abcdefg90876/article/details/108898482
参考
- https://blog.csdn.net/buwei0239/article/details/86656588