计算多个 pairwise 之间的总距离 distributions/histograms

Calculate total distance between multiple pairwise distributions/histograms

我不确定我的问题应该使用什么术语,所以我会举一个例子。

我有 2 组测量值(每组 6 个经验分布 = D1-6)描述同一系统的 2 个不同状态(蓝色和红色)。这些分布可以是多峰的、偏斜的、采样不足的,并且以其他一些不可预测的方式很奇怪。

BLUE 是我的参考,我想让 RED 分布尽可能接近 BLUE,对于所有成对分布。 为此,我将使用我的 RED 系统的参数并监控红色测量值集 D1-6,试图使其与蓝色完美重叠。

我知道我可以使用 Jensen-Shannon 或 Bhattacharyya 距离来评估 2 个分布(例如,RED-D1 和 BLUE-D1)之间的距离。但是,我不知道是否存在其他指标可以应用于此处以获得所有分布之间的全局距离(即量化 2 组成对分布之间的全局不匹配)。是这样吗?

我正在考虑构建一个使用所有成对 Jensen-Shannon 距离的经验评分函数,但我还没有更好的主意。我相信我不能只对所有 JS 距离求和,因为在这 2 个假设的不同情况下我会得到相似的分数:

  1. D1-6 are distributed as in my image

  2. RED-D1-5 are a much better fit to BLUE-D1-5, BUT RED-D6 is shifted compared to BLUE-D6

那是错误的,因为我会错过我系统的一个重要功能。考虑到这 2 种情况,最好按我的图像(解决方案 1)分配 D1-6。

每个分布之间的成对匹配同样重要,应该具有相同的权重(即 BLUE-D1 和 RED-D1 之间的匹配与 BLUE-D2 和 RED-D2 之间的匹配等重要)。

D1-3 的给定范围 DOM1 为 [0, 5],D4-6 的另一个范围 DOM2 为 [50, 800]。菱形代表蓝色和红色分布的加权平均值。

非常感谢您的帮助!

我最终使用所有成对地球移动者距离的总和(EMD,https://en.wikipedia.org/wiki/Earth_mover%27s_distance,也称为 Wasserstein 度量)作为所有成对分布之间距离的全局度量。这以适当的方式描述了我系统的2个状态之间的差异或相似性。

EMD 在 python 包 'pyemd' 中实现或使用 scipy:https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wasserstein_distance.html.