[2105.08489] Modeling the Sequential Dependence among Audience Multi-step Conversions with Multi-task Learning in Targeted Display Advertising

基于多任务学习对定向展示广告中受众多步转化的顺序依赖关系建模

  1. 引言

    • 背景:在现实大规模在线应用(如电商、金融)中,客户获取通常是受众的多步转化过程,但金融广告(如信用卡广告)中客户获取更困难,因其受众多步转化路径长且正反馈逐步稀疏(类不平衡),需利用前一步正反馈信息缓解后一步类不平衡问题,多任务学习是典型解决方案。
    • 挑战:现有多任务学习方法难以显式建模受众多步转化间的长路径顺序依赖关系以提升端到端转化率。
    • 贡献

    • 提出自适应信息转移多任务(AITM)框架,通过自适应信息转移(AIT)模块建模受众多步转化顺序依赖关系,能自适应学习不同转化阶段应转移的信息。

    • 结合损失函数中的行为期望校准器(Behavioral Expectation Calibrator),实验表明AITM在工业和公共真实数据集上性能显著优于基线方法,在线实验也有显著提升,并已开源代码。
  2. 相关工作

    • 多任务学习(MTL):在自然语言处理、语音识别、计算机视觉和药物发现等多领域成功应用。
    • 专家底部模式(Expert - Bottom pattern):通过控制多任务模型底部专家模块共享方式,顶部塔模块单独处理任务,但顶部模块间无信息交换,无法利用其丰富有用信息提升任务性能,如多门混合专家(MMoE)、渐进分层提取(PLE)等模型。
    • 概率转移模式(Probability - Transfer pattern):通过在不同任务输出层转移概率,如整个空间多任务模型(ESMM),但仅转移简单概率信息,忽略向量空间中更丰富有用表示,且一个概率预测不准确会影响多个任务,无法很好建模受众多步转化顺序依赖关系。
    • 其他方法:利用张量分解、张量正态先验、注意力机制等解决多任务学习问题,但未专门针对顺序依赖任务设计,无法有效建模受众多步转化顺序依赖关系。
  3. 美团应用中的多任务学习排名系统

    • 任务建模:在美团信用卡业务中,除被动展示(impression)步骤外,建模点击(click)、申请(application)、审批(approval)和激活(activation)四个任务,其中审批和激活是主要任务,点击和申请是辅助任务,辅助任务可缓解主要任务的类不平衡问题,且系统中有选择器根据不同银行需求输出不同转化目标,多任务框架能满足不同业务需求。
    • 流量分配与排名机制:美团不同业务需流量获取客户,但不同受众对业务敏感度不同,因此通过排名机制最大化整体收益,根据预测转化率、受众价值、业务价值等因素计算得分,展示得分最高的业务横幅广告。
  4. 方法

    • 问题表述:给定输入特征向量,受众完成最终转化需步(如文中),每步转化有标签(完成转化为,否则为),且存在顺序依赖(),多任务框架需预测每步转化的端到端概率
    • 自适应信息转移多任务(AITM)框架

    • 共享嵌入模块:将输入特征向量的每个元素嵌入低维稠密向量表示,所有任务共享嵌入向量,可学习前序任务丰富正样本信息来共享和缓解后序任务类不平衡问题,同时减少模型参数。

    • 塔模块(Tower):每个任务的塔模块将共享嵌入向量输出转换为任务特定表示,可采用多种先进模型(如NFM、DeepFM等)作为塔模块,使框架通用灵活。
    • 自适应信息转移(AIT)模块:用于相邻任务间信息转移,根据前序任务输出和当前任务原始信息,通过注意力机制自适应分配权重得到转移信息,第一个任务的AIT模块输出初始化为其塔模块输出。最后通过多层感知机(MLP)将投影到输出空间得到预测概率
    • 行为期望校准器与多任务联合优化

    • 分类任务需最小化所有任务的交叉熵损失

    • 考虑顺序依赖,设计行为期望校准器最小化目标,使模型结果更符合实际生产约束,提供更准确端到端转化识别。
    • 最终损失函数是两者加权组合,控制行为期望校准器强度。
  5. 实验

    • 数据集

    • 工业数据集:包含美团联名信用卡横幅广告展示样本,按时间顺序划分训练、验证和测试集,对激活负样本降采样使训练集正样本比例为(测试集除外),包含四个任务,过滤低频特征。

    • 公共数据集:采用阿里点击和转化预测(Ali - CCP)数据集,使用单值分类特征,包含点击和购买两个任务,随机取训练集为验证集,过滤低频特征,两个数据集统计信息如表1所示。
    • 评估协议:离线实验用AUC(Area Under ROC)评估模型性能,报告均值和标准差;在线A/B测试用端到端转化率评估,在工业数据集上报告端到端任务AUC及主要任务(审批和激活)指标。
    • 基线方法:与LightGBM、MLP、ESMM、OMoE、MMoE、PLE等模型比较。
    • 性能比较

    • 离线结果

      • 在工业数据集上,AITM在审批和激活任务上的AUC显著优于基线模型,如与PLE相比,审批任务AUC提升,激活任务提升。MLP相比LightGBM在神经网络拟合大规模数据能力上有一定提升,多任务模型因引入多任务信息表现更好,专家底部模式模型优于概率转移模式,PLE在基线中表现最佳。
      • 在公共数据集上,购买任务类不平衡严重,单任务模型表现差,MLP在点击任务上与多任务模型性能提升相似,专家底部模式在购买任务上优于概率转移模式,AITM能利用点击任务正样本信息缓解购买任务类不平衡并取得最佳性能。
        • 在线结果:AITM在美团应用中离线训练并定期更新,通过TF Serving部署,在线A/B测试表明,与LightGBM相比,MLP在审批和激活转化率上有提升,AITM进一步显著提升,且系统计算效率高,能满足实时性要求。
        • 消融实验
    • 通过可视化分析,当AITM预测分数高时,原始信息、转移加原始信息和AIT模块学习信息都能准确识别样本;预测分数低时,转移信息有助于提升性能,AIT模块能自适应学习转移信息,在低置信度下进一步提升性能。

    • 任务数量增加,更多正样本信息和转移信息可提升性能。
    • 案例研究:分析AIT模块在不同转化阶段转移信息权重,当前序任务标签为时向后序任务转移强信息;前序任务标签为且后序任务标签不确定时,后序任务主要靠自身识别正样本,当前序任务预测变差时,转移信息权重增加。
    • 超参数研究

    • 嵌入维度对AITM性能影响不大,综合考虑取

    • 行为期望校准器强度虽使不同任务性能有波动,但整体提升性能,取
    • 工业数据集中激活正样本比例过大或过小都会使模型性能下降,最终取,且AITM在较大超参数范围内性能稳定。