模型评估指标中的 Bleu 分数

Bleu Score in Model Evaluation Metric

在许多 seq2seq 实现中,我看到他们在编译模型时使用 accuracy metric,而仅在预测中使用 Bleu score

为什么他们不在训练中使用 Bleu 分数来提高效率?如果我没理解错的话!

双语评估 Understudy Score 是用来代替人类的,因此名字里就有 understudy 这个词。

现在,当您训练数据时,您已经有了目标值,您可以直接将生成的输出与其进行比较,但是当您在数据集上进行预测时,您无法衡量你翻译成的句子是正确的。这就是您使用 Bleu 的原因,因为没有人可以在每次机器翻译后检查您预测的内容是否正确,而 Bleu 提供了完整性检查。

P.S。 Understudy 是指有人向导师学习以在需要时取代他,Bleu "learns" 从人类那里学习,然后能够对翻译进行评分。

如需进一步参考,请查看 https://www.youtube.com/watch?v=9ZvTxChwg9A&list=PL1w8k37X_6L_s4ncq-swTBvKDWnRSrinI&index=28

如有任何疑问,请在下方评论。