目录

简介

比如,我们想训练词向量,我们希望经常同时出现的词,他们的向量内积越大越好;不经常同时出现的词,他们的向量内积越小越好。则我们的hinge loss function可以是:

l(w,w+,w−)=max(0,1−wT⋅w++wT⋅w−)

其中,w是当前正在处理的词,w+是w在文中前3个词和后3个词中的某一个词,w−是随机选的一个词。