Python 上不同样本量的层次聚类

Hierarchical clustering with different sample size on Python

我想知道是否可以在 Python 上使用 不同的样本量 进行 层次聚类 ？更准确地说，使用 Ward 的最小方差法。

例如，我有 5 个不同长度的整数列表 A、B、C、D、E。我想要做的是根据 Ward 的方法将这 5 个列表分为 3 组（被合并的集群的方差减少）。

有人知道怎么做吗？

我们可以认为这 5 个列表是您想要分为 3 组的样本。您可能知道的层次聚类可以作为输入距离矩阵。距离矩阵评估样本之间的某种成对距离（或差异）。

您必须通过选择有意义的距离函数 来构建这个 5x5 矩阵。这在很大程度上取决于您的 samples/integers 代表什么。由于您的样本没有恒定长度，因此您无法计算欧氏距离等指标。

例如，如果列表中的整数可以解释为类，您可以计算 Jaccard 指数来表达某种差异。

[1 2 3 4 5] and [1 3 4] have a Jaccard similarity index of 3/5 (or dissimilarity of 2/5).
0 being entirely different and 1 perfectly identical.
https://en.wikipedia.org/wiki/Jaccard_index

计算相异矩阵后（实际上它只代表 5 个选择 2 = 10 个不同的值，因为该矩阵是对称的）您可以对其应用层次聚类。

重要的部分是找到适合您的问题的距离函数。

Python 上不同样本量的层次聚类

Hierarchical clustering with different sample size on Python

hierarchical-clustering

sample-size