R:如何测量分类和数字特征的差异
R: How to measure difference with both categorical and numeric features
我对数据整理还很陌生。现在我手头有这个问题:
所以基本上我使用了患者的生化测量表(所有数值)来进行聚类分析,并通过这样做将它们分为 5 个聚类。
然后我也有他们的临床 data/features,现在我想问一下这些临床特征(数字和分类特征的混合)是否在一个集群与另一个集群之间有显着差异。那我该怎么做呢?我应该进行什么测试?有我应该看的好图书馆吗?
让您了解 "clinical data":
ClusterAssigned PatientID age sex stage FISH IGHV IgG ...
1 S134567 50 m 4 11q mutated scig
1 S234667 80 m 2 13q mutated 6.5
1 S135677 55 f 4 11q na scig
1 S356576 94 f 2 13q,t12 unmutated 5
1 S187978 59 m 4 11q mutated scig
4 S278967 80 f 2 17q unmutated 6.5
4 S123467 75 f 4 na unmutated 9.1
4 S234577 62 m 2 t12 mutated 9
.....
所以你看到分配的集群是基于我的集群分析。 FISH、IGHV、IgG 是分类的,您可以看到有时有 na 值,有时一个人可以有多个条目“13q,t12”。
打折的话,我或许可以直接把cluster 1和4 patients拿出来,把所有的na one都发出来,问问他们的age, sex, FISH, IGHV有没有区别...还有什么方法我可以用这里一次性完成这样的测试吗?
您可以先将分类变量转化为虚拟变量,然后再进行正常的聚类分析。
如果您订购了分类字段,事情会变得更加复杂
我对数据整理还很陌生。现在我手头有这个问题:
所以基本上我使用了患者的生化测量表(所有数值)来进行聚类分析,并通过这样做将它们分为 5 个聚类。
然后我也有他们的临床 data/features,现在我想问一下这些临床特征(数字和分类特征的混合)是否在一个集群与另一个集群之间有显着差异。那我该怎么做呢?我应该进行什么测试?有我应该看的好图书馆吗?
让您了解 "clinical data":
ClusterAssigned PatientID age sex stage FISH IGHV IgG ...
1 S134567 50 m 4 11q mutated scig
1 S234667 80 m 2 13q mutated 6.5
1 S135677 55 f 4 11q na scig
1 S356576 94 f 2 13q,t12 unmutated 5
1 S187978 59 m 4 11q mutated scig
4 S278967 80 f 2 17q unmutated 6.5
4 S123467 75 f 4 na unmutated 9.1
4 S234577 62 m 2 t12 mutated 9
.....
所以你看到分配的集群是基于我的集群分析。 FISH、IGHV、IgG 是分类的,您可以看到有时有 na 值,有时一个人可以有多个条目“13q,t12”。
打折的话,我或许可以直接把cluster 1和4 patients拿出来,把所有的na one都发出来,问问他们的age, sex, FISH, IGHV有没有区别...还有什么方法我可以用这里一次性完成这样的测试吗?
您可以先将分类变量转化为虚拟变量,然后再进行正常的聚类分析。
如果您订购了分类字段,事情会变得更加复杂