当使用像 fast_align 这样的单词对齐工具时,句子越多是否意味着准确性越高?

When using word alignment tools like fast_align, does more sentences mean better accuracy?

我正在使用 fast_align https://github.com/clab/fast_align 在 1000 个德语句子和这些句子的 1000 个英语翻译之间进行单词对齐。到目前为止,质量不是很好。

在流程中加入更多句子是否有助于 fast_align 更准确?假设我获取了一些具有 100k 对齐句子对的 OPUS 数据,然后在其末尾添加我的 1000 个句子并将其提供给 fast_align。那会有帮助吗?我似乎找不到任何关于这是否有意义的信息。

[免责声明:我对对齐几乎一无所知,也没有使用过fast_align。]

是的。

您可以自己证明这一点,还可以通过从数据集中删除数据以在更低的比例下进行尝试来绘制 accuracy/scale 曲线。

也就是说,1000 已经低得离谱,对于这些目的,1000 ≈≈ 0,我不希望它起作用。

更理想的是尝试10K、100K和1M。与其他人的结果更具可比性的是一些标准语料库,例如维基百科或研究研讨会的数据。

添加与对您重要的数据截然不同的数据可能会产生不同的结果,但在这种情况下,更多的数据不会有什么坏处。如果您提及特定领域、数据集或目标,我们可能会提供更多建议。