“GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction”由Tongwen Huang等人撰写。在广告和推荐系统中,点击率(CTR)预测至关重要,深度学习模型虽已广泛应用,但仍有提升空间。本文受门控机制在其他领域成功应用的启发,提出GateNet模型,通过在特征嵌入层和隐藏层分别引入特征嵌入门和隐藏门,有效提升了CTR预测性能,为相关领域研究和应用提供了重要参考。

研究背景

  • 广告和信息流排序对互联网公司至关重要,CTR预测是其核心技术。近年来出现了许多基于神经网络的CTR模型,如FNN、Wide & Deep、DeepFM和xDeepFM等,这些模型通常包含嵌入层和MLP隐藏层。
  • 门控机制在计算机视觉和自然语言处理等领域广泛应用,可提高非凸深度神经网络的可训练性。

GateNet模型

  • 特征嵌入门

    • 在深度学习CTR模型中,稀疏输入层将原始特征稀疏表示,嵌入层将其转换为低维密集向量。特征嵌入门在此基础上,先计算每个字段嵌入的门值$g_{i}=\sigma\left(W_{i} \cdot e_{i}\right)$,其中$\sigma$是激活函数,$W_{i}$是学习参数,再将门值与特征嵌入进行元素乘积得到门控感知嵌入$g e_{i}=e_{i} \odot g_{i}$,最后收集所有门控感知嵌入作为门控特征嵌入。
    • 门输出可分为标量(vector - wise)和向量(bit - wise)两种形式,且存在字段私有(field private)和字段共享(field sharing)两种参数学习机制。
  • 隐藏门:在许多DNN排名系统的深层部分,通常由多个全连接层组成以捕获高阶特征交互。隐藏门应用于隐藏层,计算方式为$g^{(l)}=a^{(l)} \odot \sigma_{g}\left(W_{g}^{(l)} a^{(l)}\right)$,其中$\odot$是元素乘积,$\sigma_{g}$是门激活函数,$W_{g}^{(l)}$是隐藏门的第$l$层参数,可像经典DNN模型一样堆叠多层。

  • 输出层:模型输出为$\hat{y}=\sigma\left(W^{|L|} g^{|L|}+b^{|L|}\right)$,学习过程通过最小化交叉熵损失函数$loss =-\frac{1}{N} \sum_{i=1}^{N}\left(y_{i} log \left(\hat{y}{i}\right)+\left(1-y\right) * log \left(1-\hat{y}_{i}\right)\right)$进行优化。

实验部分

  • 实验设置

    • 数据集:使用Criteo、ICME和SafeDriver三个数据集,分别按不同比例划分为训练集和测试集。
    • 评估指标:采用AUC作为评估指标,其对分类阈值和正样本比例不敏感,值越大越好。
    • 基线方法:选择FM、DNN、DeepFM和XDeepFM等常用CTR模型作为基线。
    • 实现细节:用Tensorflow实现模型,设置嵌入层维度、优化方法、学习率、模型深度、激活函数、神经元数量和dropout率等参数。
  • 特征嵌入门性能(RQ1)

    • 在三个数据集上的实验表明,将特征嵌入门插入基线模型可提升性能,如FM模型在ICME数据集上提升近2%。
    • 对比“field sharing”和“field private”两种参数共享机制,在ICME数据集上“field private”性能更好;对比vector - wise和bit - wise两种门机制,在Criteo数据集上bit - wise稍优。
  • 隐藏门性能(RQ2):在三个数据集上,将隐藏门插入MLP层可提升基线模型性能,标准DNN插入隐藏门后性能优于部分复杂基线模型,如DeepFM、XDeepFM,证明其能有效捕获高阶交互。

  • 组合门性能(RQ3):在Criteo和ICME数据集上实验发现,同时使用特征嵌入门和隐藏门并不能进一步提升性能,可能是因为隐式特征交互重复计算导致表示受损。

  • 超参数研究(RQ4)

    • 门激活函数:特征嵌入门中线性函数最佳,隐藏门中Tanh函数最佳。
    • 嵌入大小:对GateNet影响较小,如DeepFM在嵌入大小为20时性能较好,而$DeepFM$为10时即可。
    • 隐藏层层数:增加层数时,DeepFM性能增加,$DeepFM$性能下降,表明$DeepFM$用较少参数可取得更好效果。

研究结论

提出的GateNet模型通过在DNN CTR模型的嵌入层和隐藏层分别引入特征嵌入门和隐藏门,在三个真实数据集上的实验证明了其能有效提升FM、DeepFM和xDeepFM等多种先进模型的性能,为CTR预测提供了新的有效方法。