Rouge是用于评估自动文摘和机器翻译软件性能的一套指标和软件包,它通过比较自动生成的摘要或翻译与参考摘要或翻译(人工生成的)来计算得分。Rouge指标的值介于0和1之间,得分越高表示自动生成的摘要与参考摘要之间的相似度越高。Rouge指标主要关注召回率,而不是精确度,它查看有多少个参考摘要中的n-gram出现在了输出中。

Rouge指标包括以下几种:

  1. Rouge-N:计算系统摘要和参考摘要之间的n-gram重叠。例如,Rouge-1指的是单字(unigrams)之间的重叠,Rouge-2指的是双字(bigrams)之间的重叠。
  2. Rouge-L:基于最长公共子序列(Longest Common Subsequence, LCS)的统计。LCS问题考虑了句子级别的结构相似性,并自动识别最长的连续出现的n-gram。
  3. Rouge-W:基于加权最长公共子序列(Weighted LCS)的统计,它倾向于连续的LCS。
  4. Rouge-S:基于跳词bigram(skip-bigram)的共现统计。跳词bigram是指在句子顺序中可以“跳过”几个词的任意一对词。
  5. Rouge-SU:结合了跳词bigram和单字(unigram)的共现统计。

Rouge-L特别关注最长公共子序列,它考虑了机器译文和参考译文之间的最长公共子序列,这有助于评估句子级别的结构相似性。在实际应用中,Rouge-L的计算公式涉及到参考摘要和自动摘要的长度,以及它们的最长公共子序列的长度,通过这些值计算出召回率和精确率,最终得出Rouge-L分数。