如何解释比对工具 fast_align 的比对分数？

How do I interpret the alignment score from the alignment tool fast_align?

我正在使用对齐工具包 fast_align：https://github.com/clab/fast_align 来获得平行语料库的词到词对齐。有一个打印比对分数的选项——我如何解释这个分数？分数是否衡量平行句子之间的对齐程度？我知道语料库中的一些句子对齐得很好，而另一些则不是，但到目前为止，我看不到分数与对齐度之间的相关性。我应该调整句子中的字数吗？

FastAlign 是 IBM Model 2, the score is the probability estimated by this model. The details of the model are very nicely explained in these slides from JHU.

的一个实现

分数是给定目标句子单词和对齐的源句子的概率。算法迭代估计：

（几乎所有）源语言对和目标语言对相互翻译的概率。
给定词到词翻译概率的最佳对齐。

分数是词到词翻译概率与算法收敛到的对齐的乘积。所以，从理论上讲，这应该与句子的平行程度相关，但是有很多方法可以打破它。例如，稀有词的概率估计不可靠。另一个问题可能是某些词（例如 "of"）可能是多词表达式的一部分，而这些表达式在其他语言中是单个词，这也会影响概率估计。所以，难怪大概率是不可信的。

如果你的目标是过滤平行语料库并删除不正确对齐的句子对，我会推荐其他东西。例如，您可以像 a paper by Google 中那样使用多语言 BERT，其中它们是用于跨语言检索的中心向量。或者只是 google "parallel corpus filtering."

如何解释比对工具 fast_align 的比对分数？

How do I interpret the alignment score from the alignment tool fast_align?

nlp

alignment

machine-translation

language-translation