point-wise mutual information(PMI)是一个很流行的计算两个单词关系的算法。

  1. 定义

    • 点互信息(Point - wise Mutual Information,PMI)是一种用于衡量两个事件(通常是词语)之间关联强度的度量。它基于信息论的概念。
    • 假设我们有两个事件,点互信息的计算公式为,其中同时出现的概率,单独出现的概率,单独出现的概率。
    • 例如,在文本分析中,可以是两个单词。如果,我们可以统计它们在文本语料库中同时出现的次数以及各自出现的次数,来计算它们的概率用于PMI的计算。
  2. 意义

    • 正值表示两个事件之间具有正相关关系。也就是说,当时,倾向于一起出现,它们之间存在某种关联。
    • 例如,在自然语言处理中,如果计算“手机”和“充电器”的PMI为正数,说明这两个词在文本中经常一起出现,有较强的关联。
    • 负值表示负相关,即两个事件不太可能一起出现。当时,意味着同时出现的概率低于它们独立出现概率的乘积。
    • 例如,“太阳”和“下雪”在大多数情况下PMI可能为负,因为这两个现象很少同时发生。
    • 表示两个事件是相互独立的,它们同时出现的概率等于它们各自出现概率的乘积。
  3. 应用场景

    • 自然语言处理

    • 在词汇语义分析中,用于发现词语之间的语义关系。例如,挖掘近义词、反义词等。如果两个词的PMI值很高,它们可能是近义词;如果PMI值很低甚至为负,可能是反义词或者没有语义关联。

    • 在构建词向量模型时,PMI可以作为一种辅助的衡量指标,帮助确定词语之间的关联性,从而更好地对词语进行向量化表示。
    • 信息检索

    • 可以用于衡量查询词和文档中词语之间的相关性。搜索引擎可以利用PMI来评估一个网页内容与用户搜索关键词之间的关联程度,从而对搜索结果进行排序。例如,对于用户搜索“人工智能算法”,搜索引擎可以计算网页中出现的词语与“人工智能”和“算法”的PMI,来判断该网页是否与搜索关键词高度相关。

  4. 局限性

    • PMI对低频事件比较敏感。如果两个事件同时出现的次数很少,但是它们各自出现的次数也很少,可能会导致计算出的PMI值异常高,从而产生误导。
    • 例如,在一个小的文本语料库中,有两个生僻词“饕餮”和“耄耋”,它们可能只同时出现了一次,但由于各自出现的频率也很低,计算出的PMI可能会很高,给人一种它们关联很强的错觉。
    • 它没有考虑事件出现的顺序等因素。在一些应用场景中,如自然语言处理中的句子结构分析,事件出现的顺序是很重要的,但PMI本身不能很好地处理这种情况。