前言

简单介绍下自己做网站信息流的思路。

主体流程

召回 -> 过滤 -> 排序

召回策略

  1. 热门召回
  2. 兴趣召回

过滤策略

  1. 过滤掉最近浏览的文章
  2. 过滤掉相似的文章
  3. 过滤掉低质庸俗的文章

排序策略

  1. 使用点击率预估模型和停留时长模型预估用户的点击率和停留时长
  2. 使用点击率和停留时长的综合权重进行排序

推荐模型迭代流程

  • 离线

    • 日志采集
    • 特征提取
    • 样本生成
    • 模型训练
  • 在线

    • 模型部署
    • 上线验证
    • 上线监控
    • 例行发布