目录

词性标注模型

  • 另W=w1w2….wn是由n个词组成的词串,T=t1t2…tn是词串W对应的标注串,其中tk是wk的词性标注。
  • 根据HMM模型,计算使得条件概率p(T|W)值最大的那个T’= argmaxp(T|W)
  • 根据贝叶斯公式:p(T|W) = P(T)P(W|T)/P(W)。由于词串不变,p(W)不影响总的概率值,因此继续简化为:p(T|W) = P(T)P(W|T),其中p(T) = p(t1|t0)p(t2|t1,t0)…p(ti|ti-1),根据一阶HMM独立性假设,可得:p(T) = p(t1|t0)p(t2|t1)…p(ti|ti-1),即P(ti|ti-1) = 训练语料中ti出现在ti-1之后的次数/训练语料中ti-1出现的总次数。
  • 根据贝叶斯公式:p(W|T) = p(w1|t1)p(w2|t2,t1)…p(wi|ti,ti-1,…,t1)。根据一阶HMM独立性假设,可得p(W|T) = p(w1|t1)p(w2|t2)…p(wi|ti)。所以p(wi|ti)=训练语料中wi的词性被标记为ti的次数/训练语料中ti出现的总次数。

算法描述

  • 一个句子首先用全分割法或Viterbi算法分割成N个词;
  • 这N个词,首先查词典,标上所有可能的词类;
  • N个相邻的词每一种词类的排列叫做一条路径;
  • 求出具有最大似然估计值的那条路径,即最佳路径;
  • 最佳路径上所对应的标注为这N个词的标注。

示例

instance

instance 我 在 北京 word index list: 99 12 35 label index list: 3 2 5

word_nums 5w(用m表示) label_nums 10(用n表示)

emit score

word index 到 label index的概率

E:m × n

trans score

label index 到 label index的概率

T:n × n

predict score

假设word index到label index的分数为s[i][j],则第一个s[i][j]等于E[i][j]

参考