为什么使用 Europarl 的 Moses 表现如此糟糕?
Why such a bad performance for Moses using Europarl?
我已经开始研究 Moses 并尝试制作我认为是相当标准的基线系统。我基本上关注 the steps described on the website, but instead of using news-commentary
I have used Europarl v7 for training, with the WMT 2006 development set and the original Europarl common test. My idea was to do something similar to Le Nagard & Koehn (2010),,他们在他们的基准英法系统中获得了 0.68 的 BLEU 分数。
总而言之,我的工作流程大致是这样的:
tokenizer.perl
一切
lowercase.perl
(而不是truecase
)
clean-corpus-n.perl
- 仅使用来自 Europarl v7 的法语数据训练 IRSTLM 模型
train-model.perl
与描述完全一样
mert-moses.pl
使用 WMT 2006 开发
- 按照描述测试和测量性能
最终的 BLEU 分数是 0.26...这引出了两个问题:
- 这是这种基准系统的典型 BLEU 分数吗?我意识到 Europarl 是一个非常小的语料库,可以用来训练单语语言模型,尽管这就是他们在 Moses 网站上做事的方式。
- 对于刚开始使用 SMT 的人来说,是否有任何典型的陷阱 and/or 我可能掉进了摩西?或者像 Le Nagard 和 Koehn 这样的研究人员是否以不同于 Moses 网站上描述的方式构建他们的基线系统,例如使用一些更大的、未公开的语料库来训练语言模型?
首先说明一下:您所指的 .68 与 BLEU 无关。
My idea was to do something similar to Le Nagard & Koehn (2010), who obtained a BLEU score of .68 in their baseline English-to-French system.
您引用的文章仅指出 68% 的代词(使用共指解析)翻译正确。它无处提到获得了 .68 BLEU 分数。事实上,没有给出分数,可能是因为论文提出的定性改进无法用统计显着性来衡量(如果你只改进少量单词,这种情况会经常发生)。为此,本文仅使用代词的人工评估:
A better evaluation metric is the number of correctly
translated pronouns. This requires manual
inspection of the translation results.
这就是 .68 发挥作用的地方。
现在回答您关于您获得的 .26 的问题:
Is this a typical BLEU score for this kind of baseline system? I realise Europarl is a pretty small corpus to train a monolingual language model on, even though this is how they do things on the Moses website.
是的。您可以在此处找到 WMT 语言对的性能 http://matrix.statmt.org/
Are there any typical pitfalls for someone just starting with SMT and/or Moses I may have fallen in? Or do researchers like Le Nagard & Koehn build their baseline systems in a way different from what is described on the Moses website, for instance using some larger, undisclosed corpus to train the language model?
我假设您正确地训练了您的系统。关于 "undisclosed corpus" 问题:学术界成员通常会为每个实验说明哪些数据集用于训练测试和调整,至少在同行评审的出版物中是这样。唯一的例外是 WMT 任务(参见示例 http://www.statmt.org/wmt14/translation-task.html),如果系统参与无约束轨道,则可以使用私有语料库。但即便如此,人们还是会提到他们使用了额外的数据。
我已经开始研究 Moses 并尝试制作我认为是相当标准的基线系统。我基本上关注 the steps described on the website, but instead of using news-commentary
I have used Europarl v7 for training, with the WMT 2006 development set and the original Europarl common test. My idea was to do something similar to Le Nagard & Koehn (2010),,他们在他们的基准英法系统中获得了 0.68 的 BLEU 分数。
总而言之,我的工作流程大致是这样的:
tokenizer.perl
一切lowercase.perl
(而不是truecase
)clean-corpus-n.perl
- 仅使用来自 Europarl v7 的法语数据训练 IRSTLM 模型
train-model.perl
与描述完全一样mert-moses.pl
使用 WMT 2006 开发- 按照描述测试和测量性能
最终的 BLEU 分数是 0.26...这引出了两个问题:
- 这是这种基准系统的典型 BLEU 分数吗?我意识到 Europarl 是一个非常小的语料库,可以用来训练单语语言模型,尽管这就是他们在 Moses 网站上做事的方式。
- 对于刚开始使用 SMT 的人来说,是否有任何典型的陷阱 and/or 我可能掉进了摩西?或者像 Le Nagard 和 Koehn 这样的研究人员是否以不同于 Moses 网站上描述的方式构建他们的基线系统,例如使用一些更大的、未公开的语料库来训练语言模型?
首先说明一下:您所指的 .68 与 BLEU 无关。
My idea was to do something similar to Le Nagard & Koehn (2010), who obtained a BLEU score of .68 in their baseline English-to-French system.
您引用的文章仅指出 68% 的代词(使用共指解析)翻译正确。它无处提到获得了 .68 BLEU 分数。事实上,没有给出分数,可能是因为论文提出的定性改进无法用统计显着性来衡量(如果你只改进少量单词,这种情况会经常发生)。为此,本文仅使用代词的人工评估:
A better evaluation metric is the number of correctly translated pronouns. This requires manual inspection of the translation results.
这就是 .68 发挥作用的地方。
现在回答您关于您获得的 .26 的问题:
Is this a typical BLEU score for this kind of baseline system? I realise Europarl is a pretty small corpus to train a monolingual language model on, even though this is how they do things on the Moses website.
是的。您可以在此处找到 WMT 语言对的性能 http://matrix.statmt.org/
Are there any typical pitfalls for someone just starting with SMT and/or Moses I may have fallen in? Or do researchers like Le Nagard & Koehn build their baseline systems in a way different from what is described on the Moses website, for instance using some larger, undisclosed corpus to train the language model?
我假设您正确地训练了您的系统。关于 "undisclosed corpus" 问题:学术界成员通常会为每个实验说明哪些数据集用于训练测试和调整,至少在同行评审的出版物中是这样。唯一的例外是 WMT 任务(参见示例 http://www.statmt.org/wmt14/translation-task.html),如果系统参与无约束轨道,则可以使用私有语料库。但即便如此,人们还是会提到他们使用了额外的数据。