目录

难点

点击的偏至

位置偏向性(position bias)

排序越靠前的文档被用户浏览(examine)和点击的概率越大。

吸引偏向性

标题、摘要、垂直结果(图片、视频、音乐等)、色情、娱乐八卦、SEO结果等会吸引用户的点击。

relevance bias

perceived relevance != actual(real) relevance or pre-click relevance != post-click relevance

query-intent bias

用户输入的query只是真实意图冰山之一角。

正反馈

如果只依靠点击,容易产生正反馈,即点击多的排序高,排序越高相对点击就会越多,导致正向反馈,新的、好的文档排不上来。正反馈是一把双刃剑,好的文档一直排前也是我们期望达到的。

感知相关性

用户点击是感知相关性,即根据标题、摘要等判断的相关性,而且仅仅是用户认为的相关性,因此区别于文档实际的相关性。

稀疏性

长尾查询无法覆盖,或者点击数太少以至于点击数据不可靠。

点击稀疏问题分为两个方面,一个是不完全点击问题,对于一个query而言,用户仅仅点击有限数量的文档,因此点击是不完全的;另一个是缺失点击问题,对大量的queries和documents,用户没有点击数据。

点击作弊

如机器人点击等。

用户个性化

用户的点击行为是一种个性化行为。

冷启动问题(Cold Start Problem)

新查询的点击预测问题

Externality

单条url的点击行为与SERP(Search Engine Return Pages)内其他结果的行为是有关联的。

Query session and Search session

同Externality类似,用户的一个完整的查询task可能包括多次query提交,即一个或多个query session组成了search session,显然同一个search session内多个query session是有关联的。

模型分类

position model

position model假设点击依赖于相关性(relevance)和检验(examination)。每一个排序位置有一个被检验到的确定概率,这个概率随着排序位置递减而递减,并且仅依赖于排序位置。url上的一个点击表明这个url被用户查看并认为相关。 position model认为搜索返回结果页中的url是独立的,因此不能够在检验概率中捕获不同url之间的联系。举例来说,对于一个query的两个相关性一样的url,用户可能仅仅点击了排序靠前的url,满足用户需求,因此就结束了搜索过程。这样,位置偏置不能够充分的解释第二条url上点击的稀少。

cascade model

cascade model假设用户顺序检验url,直到一个相关文档被点击。这样,检验的概率间接的依赖两个因素:url的排序和url之前的所有url的相关性。cascade model做了一个很强的假设,即每次搜索过程只有一次点击,因此它不能解释放弃搜索或者有多于一次点击的搜索。 即使cascade model如此的严格,但在解释排序较高的url的点击上,依然远好于其他position model模型。在较低的url排序位置,cascade model表现较其他position model模型相对差一些。

示例

DBN

Dynamic Bayesian Network Click Model

examination model

cascade model

参考