有没有什么方法可以验证我得到的集群有多好?

Are there any verification methods how good cluster I got?

我在 python 中有一项关于集群化的任务。当我做这个集群化时,我需要用业务逻辑检查结果。

我没有在已解决的集群中看到模式。接下来,我决定用相关性做post分析。我采用一个集群并成对计算相关性。在计算中,我使用了整个特征,这与我只使用 3 个时的聚类不同。 我在整个集群中获得了从 0.99 到 1 的高度相关性。对我来说,这意味着算法观察了集群中的逻辑。

但是,我进行此集群化是为了解决银行数据的问题(我不会看到客户的模式,例如(发行金额 > 50.000,年龄 < 22,薪水 < 80.000 - 这个客户,例如不好))。而且我看不到业务逻辑,对我来说这是随机数据。

有了这个描述,我有一个问题。除了简单的自我检查外,我如何检查集群中的逻辑?

我认为有两个原因。首先,我的集群不好,我需要写一个新的。第二,数据不好,我需要检查数据并做一个post分析

我用 StandardScaler 做了一个 BIRCH 集群。

所有的验证方式都是'empirical'.

  1. 您可以比较不同的聚类方法并选择最佳方法。
  2. 相关性比较方法: a) 如果相关性大约为 1。您需要计算一行的平均值和中位数。下一步您比较这两个值并删除坏行。 b) 如果 corr 在整个矩阵中不同。计算所有行的平均值并将该值与平均值进行比较;像这样选一个神'value > mean(avg)'