比较两个分布与桶之间的关系
Comparing two distributions with relation among buckets
我想将以下分布与关键百分比进行比较。
dist1 = 200 - 0.1, 201-0.1, 500-0.8
dist2 = 200 - 0.15, 201 - 0.05, 500 - 0.8
dist3 = 200 - 0.1, 201-0.05, 500 - 0.85
dist1 是我的原始发行版。我想将它与 dist2、dist3 进行比较。当我使用像 KL 散度这样的东西时,我得到 KL(dist2,dist1)> KL(dist3,dist1) 但在我当前的用例中它恰恰相反,我想要一个度量,它说 dist2 比 dist3 更接近 dist1 因为只有在更近的桶之间变化,即 dist2 中的 200,201 与 dist1 相比,而在 dist3 中有从 201 桶到 500 桶的移动。
在这种情况下,平均值之类的东西会起作用,但我想要一种更严格的方法来比较这些分布,它可以捕获所有变化。
谢谢
您可能需要查看 Earth mover’s distance。这通过将概率质量视为一堆泥土,然后考虑泥土需要移动多少才能将一种分布转换为另一种分布来衡量两种分布之间的差异。将泥土移动得更远比将泥土移动更短的距离需要更多的工作,而 KL 散度对概率质量移动的距离不敏感。
我想将以下分布与关键百分比进行比较。
dist1 = 200 - 0.1, 201-0.1, 500-0.8
dist2 = 200 - 0.15, 201 - 0.05, 500 - 0.8
dist3 = 200 - 0.1, 201-0.05, 500 - 0.85
dist1 是我的原始发行版。我想将它与 dist2、dist3 进行比较。当我使用像 KL 散度这样的东西时,我得到 KL(dist2,dist1)> KL(dist3,dist1) 但在我当前的用例中它恰恰相反,我想要一个度量,它说 dist2 比 dist3 更接近 dist1 因为只有在更近的桶之间变化,即 dist2 中的 200,201 与 dist1 相比,而在 dist3 中有从 201 桶到 500 桶的移动。
在这种情况下,平均值之类的东西会起作用,但我想要一种更严格的方法来比较这些分布,它可以捕获所有变化。
谢谢
您可能需要查看 Earth mover’s distance。这通过将概率质量视为一堆泥土,然后考虑泥土需要移动多少才能将一种分布转换为另一种分布来衡量两种分布之间的差异。将泥土移动得更远比将泥土移动更短的距离需要更多的工作,而 KL 散度对概率质量移动的距离不敏感。