Word Mover的两个文档的词对之间的距离计算

Word Mover's distance calculation between word pairs of two documents

根据WMD paper,旅行成本或单词对之间的欧几里得距离的计算方式如下图所示。

这个距离是按特定顺序成对计算的吗?这样每个文档的第一个,第二个等等,如图所示或者奥巴马的距离是从 D0 中的所有四个词计算出来的,然后这四个词中的最小值只显示在图中。

谁能解释一下这是如何工作的?

还有,为什么D3的三个字都和D0的President相比?

WMD 的计算需要找到第一个文本中的单词权重配置到第二个文本的单词权重配置的最便宜的转换。

词序无关。一个文本中任何单词的质量都可以转移到另一个文本中任何单词的位置。因此,找到最佳偏移的优化过程将考虑许多可能的配对。找到最佳解决方案后,最终的单个 WMD 编号就是该最佳解决方案中的总行进距离。

由于字数不同,字数可能不会一对一移动,而是按全文质量的比例移动。因此,请考虑您包含的图形中的底部示例:顶部文本 D0 有 4 个重要单词,底部文本 D3 只有 3 个重要单词.因此,顶部文本的 4 个单词中的每一个都可以被认为具有 0.25 质量,而底部文本中的每个单词都可以被认为具有 0.33 质量。

'Obama' 可能因此非常接近 'President' - 但即使将 'Obama' 质量的 0.25 移动到 'President' 也会留下 0.08 质量必须移动到另一个 D0字。与 'Illinois' 和 'Chicago' 类似 – 即使 'Illinois' 质量的 0.25 移动到 'Chicago',0.08 仍然必须移动到另一个 D0 字。所选择的路径和比例的精确组合将是最好的,但通常会涉及一些单词在多个其他单词之间进行小幅移动。