应用 k-means 检查 R 中两组之间的差异
Apply k-means to examine differences between two groups in R
我有两个组。治疗组接触媒体;对照组无媒体。它们通过数据框中的类别变量来区分。 (接触媒体 = 1,无媒体 = 0)
现在,我想检查一下这两组之间是否有明显的区别。为此,将具有两个聚类的 k-means 算法应用于四个变量(黑人人口比例、男性人口比例、西班牙裔人口比例、对数尺度上的收入中位数)。
如何在 R 中执行此操作?谁能给一些提示?谢谢!
试试这个:
km <-kmeans(your data, 2, nstart=10)
你的数据在这里作为 data.frame
(你的整个数据或者你可以 select 你感兴趣的变量)。你需要select簇的数量(这里是2)。了解您的数据的一个好习惯是应用不同数量的聚类,然后查看哪个聚类更适合您的数据(例如使用任何标准方法,如 AIC 或 BIC)。
k-means 是一种应用于聚类数据的方法。这些数据来自不同的分布,我们想知道每个观察来自哪里(来自哪个分布)。
你也可以看看很多关于 kmeans
in R 的教程。例如
https://onlinecourses.science.psu.edu/stat857/node/125
https://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/
我有两个组。治疗组接触媒体;对照组无媒体。它们通过数据框中的类别变量来区分。 (接触媒体 = 1,无媒体 = 0)
现在,我想检查一下这两组之间是否有明显的区别。为此,将具有两个聚类的 k-means 算法应用于四个变量(黑人人口比例、男性人口比例、西班牙裔人口比例、对数尺度上的收入中位数)。
如何在 R 中执行此操作?谁能给一些提示?谢谢!
试试这个:
km <-kmeans(your data, 2, nstart=10)
你的数据在这里作为 data.frame
(你的整个数据或者你可以 select 你感兴趣的变量)。你需要select簇的数量(这里是2)。了解您的数据的一个好习惯是应用不同数量的聚类,然后查看哪个聚类更适合您的数据(例如使用任何标准方法,如 AIC 或 BIC)。
k-means 是一种应用于聚类数据的方法。这些数据来自不同的分布,我们想知道每个观察来自哪里(来自哪个分布)。
你也可以看看很多关于 kmeans
in R 的教程。例如
https://onlinecourses.science.psu.edu/stat857/node/125
https://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/