子词 NMT 的 BLEU 分数应该在子词上计算还是应该首先连接它们?

Should the BLEU score for subword NMT be calculated on the subwords or should they be joined first?

这在我读过的论文中并不太清楚。当模型在双语语料库上训练时,语料库被分成子词,例如通过字节对编码,在子词输出或重新加入子词后的完整词上计算BLEU分数是标准的吗?

BLEU 分数总是在完整的标记上计算,否则,BLEU 分数将无法在具有不同分词的模型之间进行比较。即使标记化的微小差异也会对最终分数产生很大影响。这在 a recent paper that introduces SacreBLEU 中得到了很好的解释,它现在用作报告学术论文中 BLEU 分数的标准工具。

在 BPE 子词而不是单词上计算 BLEU 时,分数会人为地变高。即使翻译质量很低,模型通常也不会出现正确单个单词的问题。通常,它只会包含在 unigram 精度中,但是将单词拆分为多个子词时,它还会增加 bigram、trigram 甚至 4-gram 精度。