论文地址
- https://arxiv.org/pdf/2208.06164
具体方法
令𝑓𝜃(x)[𝑦]表示𝑓𝜃(x)的第𝑦个索引。在JRC中,𝑓𝜃(x)[1]是对应点击状态的logit,𝑓𝜃(x)[0]是对应非点击状态的logit。JRC基于𝑓𝜃(x)[1] - 𝑓𝜃(x)[0]的差来计算预测概率:
鉴于预测概率,我们首先引入点式损失来保持校准能力:
请注意,方程(10)等同于标准的交叉熵损失。在推荐中,每个项目都是在特定的上下文中展示给用户的,例如,项目呈现给用户的特定位置[40]。为了提高相同上下文下的相对排名,我们添加了一个类似列表式的损失,旨在学习特定上下文中的排名,
其中𝑧表示当前上下文,𝑋𝑧表示共享相同上下文𝑧的样本集。
JRC的最终目标可以写成:
其中$\alpha$是介于[0, 1]之间的超参数。通过这样做,JRC通过将样本$x$的logit值与其他具有不同标签的样本的logit值进行对比,来优化排序能力,并将预测概率约束为logit相减的单调函数,以实现校准。