目录

特征设计

  • 静态文本相关性特征:BM25、TF-IDF
  • 时效分:衡量文档新旧程度
  • 紧密度:分词词组在字段上的紧密程度

主题匹配度 * offset模型

主题匹配度

cqr*ctr,其中cqr是query与片段的交集占query的比例, ctr是query和片段的交集占片段的比例。

offset模型

term在网页中的分布情况,用于计算query中的term在网页中的距离,体现了term的相对位置信息。

参考