如何从 PCA 分析中提取行样本
How to extract row samples from a PCA analysis
我正在 运行将 ggbiplot 包用于 运行 我的数据的 PCA 分析。数据被组织为行名作为样本的名称和 4 列数据。
但是行数很多,1000多
当 运行ning ggbiplot 时,我得到如下所示的图形,它很好地分离了我的数据
[
如您所见,样本名称粘在一起,因此不易识别,我想提取包含这 9 个组中每个样本的行名,以了解是什么将这些数据分开。一种想法是使用确定的 X 轴和 Y 轴范围来提取数据
有什么办法可以得到吗?
ggbiplot 正在处理 "prcomp" class 文件
PCA 有助于沿着最大方差方向沿主轴可视化数据。因此,检测集群变得更加容易(就像在您的 biplot 中一样)。
但是要将数据点/行识别到特定集群,您需要 运行 集群算法。由于您的数据似乎具有不重叠的集群,因此任何聚类算法都应该这样做。但是,由于您已经知道需要多少个聚类并且对沿主轴的聚类中心有一定的了解,我建议您使用 运行 K-means 算法(k = 9 供您分析),它将为您提供一个整数向量,指定哪个数据点属于 9 个聚类中的哪个聚类。
即使您直接在 PCA 分数 上 运行 K-means 也应该很容易工作,因为您有初始从上面的 biplot.
中猜测 centeroids
我正在 运行将 ggbiplot 包用于 运行 我的数据的 PCA 分析。数据被组织为行名作为样本的名称和 4 列数据。
但是行数很多,1000多
当 运行ning ggbiplot 时,我得到如下所示的图形,它很好地分离了我的数据
[
如您所见,样本名称粘在一起,因此不易识别,我想提取包含这 9 个组中每个样本的行名,以了解是什么将这些数据分开。一种想法是使用确定的 X 轴和 Y 轴范围来提取数据
有什么办法可以得到吗? ggbiplot 正在处理 "prcomp" class 文件
PCA 有助于沿着最大方差方向沿主轴可视化数据。因此,检测集群变得更加容易(就像在您的 biplot 中一样)。
但是要将数据点/行识别到特定集群,您需要 运行 集群算法。由于您的数据似乎具有不重叠的集群,因此任何聚类算法都应该这样做。但是,由于您已经知道需要多少个聚类并且对沿主轴的聚类中心有一定的了解,我建议您使用 运行 K-means 算法(k = 9 供您分析),它将为您提供一个整数向量,指定哪个数据点属于 9 个聚类中的哪个聚类。
即使您直接在 PCA 分数 上 运行 K-means 也应该很容易工作,因为您有初始从上面的 biplot.
中猜测 centeroids