在使用稍微修改的标准测试集的同时比较 NMT 模型之间的测试 BLEU 分数是否可以?

Is it okay to compare Test BLEU score between NMT models while using a slightly modified standard test sets?

我正在使用 tst2013.en 发现 here 作为我的测试集来获得测试 BLEU 分数以与其他以前的模型进行比较。但是,我必须过滤掉一些超过 100 个单词的句子,否则我将没有 运行 模型的资源。

但是在测试集稍作修改的情况下,将测试 BLEU 分数与使用未修改测试集的其他模型进行比较是否可以接受?

不,要使分数具有可比性,重要的是保持测试数据的目标端完好无损。删除较长的句子可能会给你的 BLEU 分数带来不公平的提升,因为所有系统在处理较长的句子时往往表现较差。

如果您的模型确实无法处理超过 100 个单词的句子(也许您可以减少批量大小?),您问题的正确解决方案是:

  • 削减测试数据集的端,使得句子最多100个词长,不要删除它们
  • 翻译数据集修改后的源端
  • 使用测试数据未更改的目标一侧评估翻译