多维数据聚类
multidimensional data clustering
问题:我有两组多维异构数据。我在下面编造了一个简单的说明性示例。请注意,有些列是离散的(年龄),有些是二元的(性别),而另一列甚至是有序的(裤子尺寸)。
Person Age gender height weight pant_size
Control_1 55 M 167.6 155 32,34
Control_2 68 F 154.1 137 28,28
Control_3 53 F 148.9 128 27,28
Control_4 57 M 167.6 165 38,34
Control_5 62 M 147.4 172 36,32
Control_6 44 M 157.6 159 32,32
Control_7 76 F 172.1 114 30,32
Control_8 49 M 161.8 146 34,34
Control_9 53 M 164.4 181 32,36
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28
问题是整个实验组与整个对照组有显着差异吗?
或者粗略地说,它们是否在 [年龄、性别、身高、体重、pant_size] 的 space 中形成了两个不同的集群?
到目前为止,我所尝试的总体思路是将实验组的相应列与对照组的相应列进行比较的指标;该指标然后采用列分数的总和(见下文)。选择一个有点武断的阈值来决定两组是否不同。这种任意性被列的权重所混淆,这也有些任意。值得注意的是,这种方法对于我遇到的实际问题表现良好,但需要正式化。我想知道这种方法是否与任何现有方法相似,或者是否有其他更广泛接受的成熟方法?
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28 metric
column score 2 1 5 1 7 16
如果您假设结果 "cluster".
,请将其视为 分类 而不是聚类问题
因为您不需要找到这些集群,但是它们是预定义的类。
"rewritten"方法如下:
训练不同的分类器预测一个点是来自数据 A 还是数据 B。如果你能得到比 50% 更好的准确度(假设数据平衡),那么 geoups 确实不同。如果你所有的分类器都是随机的(而且你没有犯错)那么这两个集合可能太相似了。
问题:我有两组多维异构数据。我在下面编造了一个简单的说明性示例。请注意,有些列是离散的(年龄),有些是二元的(性别),而另一列甚至是有序的(裤子尺寸)。
Person Age gender height weight pant_size
Control_1 55 M 167.6 155 32,34
Control_2 68 F 154.1 137 28,28
Control_3 53 F 148.9 128 27,28
Control_4 57 M 167.6 165 38,34
Control_5 62 M 147.4 172 36,32
Control_6 44 M 157.6 159 32,32
Control_7 76 F 172.1 114 30,32
Control_8 49 M 161.8 146 34,34
Control_9 53 M 164.4 181 32,36
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28
问题是整个实验组与整个对照组有显着差异吗?
或者粗略地说,它们是否在 [年龄、性别、身高、体重、pant_size] 的 space 中形成了两个不同的集群?
到目前为止,我所尝试的总体思路是将实验组的相应列与对照组的相应列进行比较的指标;该指标然后采用列分数的总和(见下文)。选择一个有点武断的阈值来决定两组是否不同。这种任意性被列的权重所混淆,这也有些任意。值得注意的是,这种方法对于我遇到的实际问题表现良好,但需要正式化。我想知道这种方法是否与任何现有方法相似,或者是否有其他更广泛接受的成熟方法?
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28 metric
column score 2 1 5 1 7 16
如果您假设结果 "cluster".
,请将其视为 分类 而不是聚类问题因为您不需要找到这些集群,但是它们是预定义的类。
"rewritten"方法如下:
训练不同的分类器预测一个点是来自数据 A 还是数据 B。如果你能得到比 50% 更好的准确度(假设数据平衡),那么 geoups 确实不同。如果你所有的分类器都是随机的(而且你没有犯错)那么这两个集合可能太相似了。