如何解释比对工具 fast_align 的比对分数?

How do I interpret the alignment score from the alignment tool fast_align?

我正在使用对齐工具包 fast_align:https://github.com/clab/fast_align 来获得平行语料库的词到词对齐。有一个打印比对分数的选项——我如何解释这个分数?分数是否衡量平行句子之间的对齐程度?我知道语料库中的一些句子对齐得很好,而另一些则不是,但到目前为止,我看不到分数与对齐度之间的相关性。我应该调整句子中的字数吗?

FastAlign 是 IBM Model 2, the score is the probability estimated by this model. The details of the model are very nicely explained in these slides from JHU.

的一个实现

分数是给定目标句子单词和对齐的源句子的概率。算法迭代估计:

  1. (几乎所有)源语言对和目标语言对相互翻译的概率。
  2. 给定词到词翻译概率的最佳对齐。

分数是词到词翻译概率与算法收敛到的对齐的乘积。所以,从理论上讲,这应该与句子的平行程度相关,但是有很多方法可以打破它。例如,稀有词的概率估计不可靠。另一个问题可能是某些词(例如 "of")可能是多词表达式的一部分,而这些表达式在其他语言中是单个词,这也会影响概率估计。所以,难怪大概率是不可信的。

如果你的目标是过滤平行语料库并删除不正确对齐的句子对,我会推荐其他东西。例如,您可以像 a paper by Google 中那样使用多语言 BERT,其中它们是用于跨语言检索的中心向量。或者只是 google "parallel corpus filtering."