多维数据聚类

multidimensional data clustering

问题:我有两组多维异构数据。我在下面编造了一个简单的说明性示例。请注意,有些列是离散的(年龄),有些是二元的(性别),而另一列甚至是有序的(裤子尺寸)。

Person         Age  gender   height     weight  pant_size
Control_1      55   M        167.6      155     32,34
Control_2      68   F        154.1      137     28,28
Control_3      53   F        148.9      128     27,28
Control_4      57   M        167.6      165     38,34
Control_5      62   M        147.4      172     36,32
Control_6      44   M        157.6      159     32,32
Control_7      76   F        172.1      114     30,32
Control_8      49   M        161.8      146     34,34
Control_9      53   M        164.4      181     32,36

Person         Age  gender   height     weight  pant_size
experiment_1   39   F        139.6      112     26,28
experiment_2   52   M        154.1      159     32,32
experiment_3   43   F        148.9      123     27,28
experiment_4   55   M        167.6      188     36,38
experiment_5   61   M        161.4      171     36,32
experiment_6   48   F        149.1      144     28,28

问题是整个实验组与整个对照组有显着差异吗?

或者粗略地说,它们是否在 [年龄、性别、身高、体重、pant_size] 的 space 中形成了两个不同的集群?

到目前为止,我所尝试的总体思路是将实验组的相应列与对照组的相应列进行比较的指标;该指标然后采用列分数的总和(见下文)。选择一个有点武断的阈值来决定两组是否不同。这种任意性被列的权重所混淆,这也有些任意。值得注意的是,这种方法对于我遇到的实际问题表现良好,但需要正式化。我想知道这种方法是否与任何现有方法相似,或者是否有其他更广泛接受的成熟方法?

Person         Age  gender   height     weight  pant_size
experiment_1   39   F        139.6      112     26,28
experiment_2   52   M        154.1      159     32,32
experiment_3   43   F        148.9      123     27,28
experiment_4   55   M        167.6      188     36,38
experiment_5   61   M        161.4      171     36,32
experiment_6   48   F        149.1      144     28,28        metric

column score   2    1        5          1       7            16

如果您假设结果 "cluster".

,请将其视为 分类 而不是聚类问题

因为您不需要找到这些集群,但是它们是预定义的类。

"rewritten"方法如下:

训练不同的分类器预测一个点是来自数据 A 还是数据 B。如果你能得到比 50% 更好的准确度(假设数据平衡),那么 geoups 确实不同。如果你所有的分类器都是随机的(而且你没有犯错)那么这两个集合可能太相似了。