点击模型

难点

点击的偏至

位置偏向性（position bias）

排序越靠前的文档被用户浏览（examine）和点击的概率越大。

吸引偏向性

标题、摘要、垂直结果（图片、视频、音乐等）、色情、娱乐八卦、SEO结果等会吸引用户的点击。

relevance bias

perceived relevance != actual(real) relevance or pre-click relevance != post-click relevance

query-intent bias

用户输入的query只是真实意图冰山之一角。

正反馈

如果只依靠点击，容易产生正反馈，即点击多的排序高，排序越高相对点击就会越多，导致正向反馈，新的、好的文档排不上来。正反馈是一把双刃剑，好的文档一直排前也是我们期望达到的。

感知相关性

用户点击是感知相关性，即根据标题、摘要等判断的相关性，而且仅仅是用户认为的相关性，因此区别于文档实际的相关性。

稀疏性

长尾查询无法覆盖，或者点击数太少以至于点击数据不可靠。

点击稀疏问题分为两个方面，一个是不完全点击问题，对于一个query而言，用户仅仅点击有限数量的文档，因此点击是不完全的；另一个是缺失点击问题，对大量的queries和documents，用户没有点击数据。

点击作弊

如机器人点击等。

用户个性化

用户的点击行为是一种个性化行为。

冷启动问题（Cold Start Problem）

新查询的点击预测问题

Externality

单条url的点击行为与SERP（Search Engine Return Pages）内其他结果的行为是有关联的。

Query session and Search session

同Externality类似，用户的一个完整的查询task可能包括多次query提交，即一个或多个query session组成了search session，显然同一个search session内多个query session是有关联的。

模型分类

position model

position model假设点击依赖于相关性（relevance）和检验（examination）。每一个排序位置有一个被检验到的确定概率，这个概率随着排序位置递减而递减，并且仅依赖于排序位置。url上的一个点击表明这个url被用户查看并认为相关。 position model认为搜索返回结果页中的url是独立的，因此不能够在检验概率中捕获不同url之间的联系。举例来说，对于一个query的两个相关性一样的url，用户可能仅仅点击了排序靠前的url，满足用户需求，因此就结束了搜索过程。这样，位置偏置不能够充分的解释第二条url上点击的稀少。

cascade model

cascade model假设用户顺序检验url，直到一个相关文档被点击。这样，检验的概率间接的依赖两个因素：url的排序和url之前的所有url的相关性。cascade model做了一个很强的假设，即每次搜索过程只有一次点击，因此它不能解释放弃搜索或者有多于一次点击的搜索。即使cascade model如此的严格，但在解释排序较高的url的点击上，依然远好于其他position model模型。在较低的url排序位置，cascade model表现较其他position model模型相对差一些。

点击模型

目录

难点

点击的偏至

位置偏向性（position bias）

吸引偏向性

relevance bias

query-intent bias

正反馈

感知相关性

稀疏性

点击作弊

用户个性化

冷启动问题（Cold Start Problem）

Externality

Query session and Search session

模型分类

position model

cascade model

示例

DBN

examination model

cascade model

参考

搜索引擎相关文章

最近热门

最常浏览