论文《Applying Deep Learning To Airbnb Search》阅读笔记

1. 研究背景

Airbnb的搜索排名任务是从数千个房源列表中为用户提供有序推荐。最初使用手动设计的评分函数，后被梯度提升决策树（GBDT）模型取代，带来显著改进，但随着时间推移收益趋于平稳。为寻求突破，团队开始尝试将神经网络应用于搜索排名系统。

2. 模型演变

2.1简单神经网络（Simple NN）

最初尝试复杂架构失败后，上线了一个简单的单隐藏层神经网络，含32个全连接ReLU激活单元，输入与GBDT相同特征，训练目标为最小化L2回归损失（预订房源效用为1.0，未预订为0.0）。该模型虽预订效果与GBDT持平，但验证了神经网络管道的生产就绪性。

2.2 LambdaRank神经网络（Lambdarank NN）

结合神经网络与LambdaRank思想，将训练目标从回归转为成对偏好形式，通过优化预订房源与未预订房源的得分差异交叉熵损失，并根据交换房源位置对NDCG的影响加权成对损失，直接优化NDCG。

2.3决策树/因子分解机神经网络（Decision Tree/Factorization Machine NN）

在主排名模型为神经网络时，研究了其他模型，如GBDT模型的迭代、预测房源预订概率的因子分解机（FM）模型。受相关神经网络架构启发，新模型结合了这三个模型的优势，将FM模型预测作为特征输入神经网络，GBDT模型中树的叶节点索引作为分类特征。

2.4深度神经网络（Deep NN）

通过将训练数据量扩大10倍并采用2隐藏层的深度神经网络，简化了模型复杂性。典型配置为输入层195个特征（扩展分类特征为嵌入后），第一个隐藏层127个全连接ReLU，第二个隐藏层83个全连接ReLU。

3. 失败模型案例分析

3.1房源ID（Listing ID）

尝试将房源ID作为特征，通过嵌入学习房源向量表示，但由于Airbnb房源受物理世界限制，数据稀疏，导致过拟合，该方法在测试集上未提升NDCG。

3.2多任务学习（Multi-task learning）

为解决房源ID过拟合问题，构建多任务学习模型，同时预测预订和长浏览概率，共享房源ID嵌入，但在线测试时长浏览量大幅增加，预订量不变。原因是长浏览与预订虽相关，但受多种复杂因素影响，如高端高价房源、长描述难解析房源等，使得基于长浏览预测预订具有挑战性。

4. 特征工程

4.1特征归一化

最初直接使用GBDT模型特征训练神经网络时，因特征未正确归一化导致损失饱和。神经网络对特征数值敏感，需将特征值限制在较小范围，多数分布在{-1, 1}区间，中位数映射为0。根据特征分布选择合适变换，如类似正态分布用 $( feature_val -\mu) / \sigma$ ，类似幂律分布用 $log (\frac{1+ feature_val }{1+ median })$ 。

4.2特征分布

4.2.1发现错误

处理海量特征样本时，特征分布的平滑性有助于发现错误，如货币相关错误或价格记录错误在分布中表现为异常尖峰。

4.2.2促进泛化

深度神经网络中，层输出分布越来越平滑，下层特征的平滑分布有助于上层对未见值正确插值，从而促进模型泛化。通过将测试集中特征值缩放（如价格翻倍、三倍等）并观察NDCG变化，发现模型性能稳定，表明模型具有良好泛化能力。为确保输入特征平滑分布，对一些特征需特殊处理，如房源地理位置（经纬度），通过计算与地图中心偏移并取对数，使分布平滑，同时将原始经纬度转换为与地图中心偏移的特征，可让模型学习基于距离的全局属性，而非特定地理位置属性。

4.2.3检查特征完整性

部分特征分布不平滑可能暗示模型缺失特征，如房源占用率分布异常，经调查发现受最低入住时长要求影响，添加平均入住时长特征后，占用率分布变平滑。有时特征在一维不平滑但在高维可能变平滑，需思考模型是否能获取这些维度特征，必要时添加。

4.3高基数分类特征

除房源ID外，还尝试了其他高基数分类特征，如通过将查询中的城市和房源对应的S2单元格哈希映射为整数作为分类特征，输入神经网络并通过反向传播学习嵌入，能有效编码基于城市查询的社区位置偏好，且效果优于GBDT模型中复杂的工程化处理方式。

5. 系统工程优化

5.1数据格式与处理

GBDT模型使用CSV格式训练数据，TensorFlow模型沿用此管道时，因解析CSV和通过feed dict复制数据耗时，导致GPU利用率低。将训练数据转换为Protobufs格式并使用Dataset后，训练速度提升17倍，GPU利用率提高到约90%，使大规模训练数据成为可能。

5.2静态特征重构

许多房源属性特征很少变化，读取这些特征造成输入瓶颈。将房源ID作为分类特征，准静态房源特征打包为不可训练嵌入，通过房源ID索引，嵌入存储在GPU内存中，减少了磁盘I/O和训练数据量，提高了训练速度，使模型能考虑用户过去交互房源的更多细节。

5.3 Java神经网络库

2017年初将TensorFlow模型部署到生产时，Java栈中缺乏高效评分解决方案，需在Java和其他语言间来回转换数据，引入高延迟。为满足搜索严格延迟要求，创建了自定义Java神经网络评分库，虽目前效果良好，但未来可能会重新审视以寻找更好替代方案。

6. 超参数调整

6.1丢弃法（Dropout）

最初认为Dropout对神经网络正则化重要，但尝试不同方式均导致离线指标轻微下降。目前认为Dropout类似数据增强技术，在引入随机场景无效时会干扰模型，尝试添加手工制作的噪声形状虽使离线NDCG提升约1%，但在线性能无显著改善。

6.2初始化（Initialization）

最初将所有权重和嵌入初始化为零，发现效果最差。目前网络权重使用Xavier初始化，嵌入使用{-1, 1}范围内的随机均匀初始化。

6.3学习率（Learning rate）

面对众多学习率策略，发现Adam优化器默认设置效果难以超越，目前使用LazyAdamOptimizer变体，在训练大嵌入时速度更快。

6.4批大小（Batch size）

批大小对训练速度有显著影响，但对模型影响难以把握。虽未遵循相关建议，但选择固定批大小200对当前模型有效。

7. 特征重要性评估

7.1评分分解（Score Decomposition）

在GBDT模型中，部分依赖工具可分析特征重要性，但在神经网络中，尝试分解网络最终得分以确定单个输入节点贡献时，因无法清晰分离非线性激活（如ReLU）中特定输入节点的影响而失败。

7.2消融测试（Ablation Test）

通过逐个删除特征、重新训练模型并观察性能差异来评估特征重要性，但由于特征冗余，删除单个特征对性能影响类似模型重训练时的噪声，难以准确判断特征重要性。

7.3排列测试（Permutation Test）

受随机森林排列特征重要性启发，对测试集中特征值随机排列后观察模型性能变化，预期重要特征受扰动后性能下降更大。但因假设特征相互独立（实际不独立，如房间数量与价格、入住人数、设施等相关），导致结果不合理，不过该测试可确定部分不重要特征。

7.4 TopBot分析（TopBot Analysis）

使用自定义的TopBot工具，通过比较排名顶部和底部房源的特征值分布，了解模型如何利用不同特征值范围。如价格在顶部房源分布偏向低值，表明模型对价格敏感，而评论数量分布相似，表明模型未充分利用评论信息，为进一步研究提供方向。

8. 回顾与展望

深度学习应用之旅从乐观开始，期望替换GBDT模型获得巨大收益，但初期离线指标倒退。后来意识到深度学习需系统扩展，涉及重新思考整个系统。虽过程曲折，但深度学习带来了在线性能提升，且改变了团队关注重点，从特征工程转向更高层次问题，如优化目标和用户表示。团队认为深度学习值得推荐，且感觉在该领域才刚起步。

参考

https://www.jianshu.com/p/cb8c3b834135