模型评估指标中的 Bleu 分数

Bleu Score in Model Evaluation Metric

在许多 seq2seq 实现中，我看到他们在编译模型时使用 accuracy metric，而仅在预测中使用 Bleu score。

为什么他们不在训练中使用 Bleu 分数来提高效率？如果我没理解错的话！

双语评估 Understudy Score 是用来代替人类的，因此名字里就有 understudy 这个词。

现在，当您训练数据时，您已经有了目标值，您可以直接将生成的输出与其进行比较，但是当您在数据集上进行预测时，您无法衡量你翻译成的句子是正确的。这就是您使用 Bleu 的原因，因为没有人可以在每次机器翻译后检查您预测的内容是否正确，而 Bleu 提供了完整性检查。

P.S。 Understudy 是指有人向导师学习以在需要时取代他，Bleu "learns" 从人类那里学习，然后能够对翻译进行评分。

如有任何疑问，请在下方评论。