BLEU 分数的变化

Variation in BLEU Score

我对机器翻译的 BLUE 分数计算有一些疑问。我意识到他们可能有不同的 BLEU 指标。我发现代码报告了 BLEU 的五个值,即 BLEU-1、BLEU-2、BLEU-3、BLEU-4,最后是 BLEU,这似乎是前四个 BLEU 的指数平均值。我仍然不清楚它们之间的区别是什么。你有什么想法?谢谢

P.s。一开始我以为这个question更多的是理论内容,就贴在了meta stackexange上。版主已将其关闭并将其评论为 Whosebug 类型的问题。所以请不要再惩罚我。 =)

来源:http://www.statmt.org/book/slides/08-evaluation.pdf

我没有听说过BLEU-1和BLEU-2,但我猜它在BLEU分数的公式中表示1-gram,2-gram,3-gram和4-gram,我的意思是在公式中precision[i] = BLEU-i 在你的问题中:

实际上,BLEU-n 不仅仅使用 n-gram 分数。它计算 1-gram 到 n-gram 分数,并赋予它们相同的权重以计算最终分数。有关详细信息,请参阅 this link 的 "Cumulative N-Gram Scores" 部分。