BLEU简介

BLEU的全名为:bilingual evaluation understudy,即:双语互译质量评估辅助工具。BLEU的设计思想是:机器翻译结果越接近专业人工翻译的结果,则越好。BLEU算法实际上在做的事:判断两个句子的相似程度。我想知道一个句子翻译前后的表示是否意思一致,显然没法直接比较,那我就拿这个句子的标准人工翻译与我的机器翻译的结果作比较,如果它们是很相似的,说明我的翻译很成功。因此,BLUE去做判断:一句机器翻译的话与其相对应的几个参考翻译作比较,算出一个综合分数。这个分数越高说明机器翻译得越好。(注:BLEU算法是句子之间的比较,不是词组,也不是段落)

BLEU优缺点

优点

方便、快速、结果有参考价值

缺点

  1. 不考虑语言表达(语法)上的准确性
  2. 测评精度会受常用词的干扰
  3. 短译句的测评精度有时会较高
  4. 没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定

常用词干扰

over-generate “reasonable”words。比如the、on这样的词,极易造成翻译评分结果很高的情况。

多元精度组合

uni-gram下的指标可以衡量翻译的充分性,n-gram下的可以衡量翻译的流畅性,建议将它们组合使用,比如加权求和平均。

译句较短惩罚

Sentence brevity penalty。在之前的评分规则中,短译句很容易得高分,所以要设计一个有效的惩罚措施去控制。

最佳匹配长度

根据译句长度和任意参考翻译的长度进行对比,增加惩罚因子。