目录
难点
点击的偏至
位置偏向性(position bias)
排序越靠前的文档被用户浏览(examine)和点击的概率越大。
吸引偏向性
标题、摘要、垂直结果(图片、视频、音乐等)、色情、娱乐八卦、SEO结果等会吸引用户的点击。
relevance bias
perceived relevance != actual(real) relevance or pre-click relevance != post-click relevance
query-intent bias
用户输入的query只是真实意图冰山之一角。
正反馈
如果只依靠点击,容易产生正反馈,即点击多的排序高,排序越高相对点击就会越多,导致正向反馈,新的、好的文档排不上来。正反馈是一把双刃剑,好的文档一直排前也是我们期望达到的。
感知相关性
用户点击是感知相关性,即根据标题、摘要等判断的相关性,而且仅仅是用户认为的相关性,因此区别于文档实际的相关性。
稀疏性
长尾查询无法覆盖,或者点击数太少以至于点击数据不可靠。
点击稀疏问题分为两个方面,一个是不完全点击问题,对于一个query而言,用户仅仅点击有限数量的文档,因此点击是不完全的;另一个是缺失点击问题,对大量的queries和documents,用户没有点击数据。
点击作弊
如机器人点击等。
用户个性化
用户的点击行为是一种个性化行为。
冷启动问题(Cold Start Problem)
新查询的点击预测问题
Externality
单条url的点击行为与SERP(Search Engine Return Pages)内其他结果的行为是有关联的。
Query session and Search session
同Externality类似,用户的一个完整的查询task可能包括多次query提交,即一个或多个query session组成了search session,显然同一个search session内多个query session是有关联的。
模型分类
position model
position model假设点击依赖于相关性(relevance)和检验(examination)。每一个排序位置有一个被检验到的确定概率,这个概率随着排序位置递减而递减,并且仅依赖于排序位置。url上的一个点击表明这个url被用户查看并认为相关。 position model认为搜索返回结果页中的url是独立的,因此不能够在检验概率中捕获不同url之间的联系。举例来说,对于一个query的两个相关性一样的url,用户可能仅仅点击了排序靠前的url,满足用户需求,因此就结束了搜索过程。这样,位置偏置不能够充分的解释第二条url上点击的稀少。
cascade model
cascade model假设用户顺序检验url,直到一个相关文档被点击。这样,检验的概率间接的依赖两个因素:url的排序和url之前的所有url的相关性。cascade model做了一个很强的假设,即每次搜索过程只有一次点击,因此它不能解释放弃搜索或者有多于一次点击的搜索。 即使cascade model如此的严格,但在解释排序较高的url的点击上,依然远好于其他position model模型。在较低的url排序位置,cascade model表现较其他position model模型相对差一些。
示例
DBN
Dynamic Bayesian Network Click Model