PCA 中第一个分量覆盖的 99% 方差的显着性

Significance of 99% of variance covered by the first component in PCA

在 PCA 分析中,当第一个分量覆盖超过 99% 的总方差时,mean/signify 是什么意思? 我有一个大小为 500X1000 的特征向量,我在其上使用了 Matlab 的 pca 函数 returns [coeff,score,latent,tsquared,explained]。变量 'explained' returns 每个分量覆盖的方差百分比。

explained 告诉您仅使用该主成分表示数据的准确性。在您的情况下,这意味着仅使用主要主成分,您就可以非常准确地(达到 99%)描述数据。

让我们做一个二维的例子。假设您有 100x2 的数据,并且您进行了 PCA。

结果可能是这样的(取自网络)

此数据将为您提供大约 90% 的第一个主成分(图中 PCA 第一维大绿色箭头)的 explained 值。

这是什么意思?

这意味着如果您将所有数据投影到那条线上,您将以 90% 的准确度重建点(当然,您将丢失 PCA 二维方向上的信息)。

在您的示例中,99% 在视觉上意味着几乎所有蓝色点都位于绿色大箭头上,绿色小箭头方向变化很小。

当然,用 1000 个维度而不是 2 个维度进行可视化要困难得多,但我希望你能理解。