R:如何测量分类和数字特征的差异

R: How to measure difference with both categorical and numeric features

我对数据整理还很陌生。现在我手头有这个问题:

所以基本上我使用了患者的生化测量表(所有数值)来进行聚类分析,并通过这样做将它们分为 5 个聚类。

然后我也有他们的临床 data/features,现在我想问一下这些临床特征(数字和分类特征的混合)是否在一个集群与另一个集群之间有显着差异。那我该怎么做呢?我应该进行什么测试?有我应该看的好图书馆吗?

让您了解 "clinical data":

ClusterAssigned  PatientID  age sex stage FISH      IGHV        IgG ...
      1          S134567    50  m   4     11q       mutated     scig
      1          S234667    80  m   2     13q       mutated     6.5
      1          S135677    55  f   4     11q       na          scig
      1          S356576    94  f   2     13q,t12   unmutated   5
      1          S187978    59  m   4     11q       mutated     scig
      4          S278967    80  f   2     17q       unmutated   6.5
      4          S123467    75  f   4     na        unmutated   9.1
      4          S234577    62  m   2     t12       mutated     9
  .....

所以你看到分配的集群是基于我的集群分析。 FISH、IGHV、IgG 是分类的,您可以看到有时有 na 值,有时一个人可以有多个条目“13q,t12”。

打折的话,我或许可以直接把cluster 1和4 patients拿出来,把所有的na one都发出来,问问他们的age, sex, FISH, IGHV有没有区别...还有什么方法我可以用这里一次性完成这样的测试吗?

您可以先将分类变量转化为虚拟变量,然后再进行正常的聚类分析。

如果您订购了分类字段,事情会变得更加复杂