当使用像 fast_align 这样的单词对齐工具时，句子越多是否意味着准确性越高？

When using word alignment tools like fast_align, does more sentences mean better accuracy?

我正在使用 fast_align https://github.com/clab/fast_align 在 1000 个德语句子和这些句子的 1000 个英语翻译之间进行单词对齐。到目前为止，质量不是很好。

在流程中加入更多句子是否有助于 fast_align 更准确？假设我获取了一些具有 100k 对齐句子对的 OPUS 数据，然后在其末尾添加我的 1000 个句子并将其提供给 fast_align。那会有帮助吗？我似乎找不到任何关于这是否有意义的信息。

[免责声明：我对对齐几乎一无所知，也没有使用过fast_align。]

是的。

您可以自己证明这一点，还可以通过从数据集中删除数据以在更低的比例下进行尝试来绘制 accuracy/scale 曲线。

也就是说，1000 已经低得离谱，对于这些目的，1000 ≈≈ 0，我不希望它起作用。

更理想的是尝试10K、100K和1M。与其他人的结果更具可比性的是一些标准语料库，例如维基百科或研究研讨会的数据。

添加与对您重要的数据截然不同的数据可能会产生不同的结果，但在这种情况下，更多的数据不会有什么坏处。如果您提及特定领域、数据集或目标，我们可能会提供更多建议。