PCA的主要成分
principal components of PCA
我在 datacamp.com 中遇到了这个问题:
下面是同一点云的三个散点图。每个散点图显示一组不同的轴(红色)。哪个图中的坐标轴可以代表点云的主要成分?
还记得主成分是数据变化的方向吗?
回答:
情节 1 和 3
我的问题是这个问题是什么意思?为什么图 2 不是答案的一部分,因为轴可以旋转以适应点云。
正如@NelsonGon 所提到的,这在 CrossValidated 上可能会更好......但无论如何:
图 1 和图 3 是正确的,因为它们的轴实际上是使所示平面上的方差最大化的轴。这些向量可以翻转,因为特征向量的符号在 PCA 中是任意的(您会注意到图 1 和图 3 中的红色向量沿着相同的轴,其中之一就是 'flipped')。
然而,图 2 的向量显然没有沿着最大化点云扩散的轴移动,因此你所指的 post 上的答案。
正如评论中所建议的,这更适合交叉验证,或者可能 math.stackexchange。
现在答案直觉上相当简单。
可以通过迭代过程获得主成分,这样:
- 第一个主成分相当于线性组合
a_1 %*% X
,它最大化Var(a_1 %*% X)
t(a_1) %*% a_1 = 1
- 第二个主成分相当于线性组合
a_2 %*% X
,它最大化Var(a_2 %*% X)
受t(a_2) %*% a_2 = 1
和cov(a_1 %*% X, a_2 %*% X) = 0
- 第三个——|| --
从这个定义中注意到 var(a_1 %*% X) = var( - a_1 %*% X)
,因此主成分只能确定到成分的符号。
从这个定义我们可以看出:
1. 1 和 3 是等价的,因为第一条(最长)线位于点分布最广的方向(显示最大方差)
2. 第二个图不能作为主成分,因为方向与最大方差的方向不一致
Applied Multivariate Statistical Analysis 中的第 8 章第 430 页(左右)包含更详细的理论解释。
我在 datacamp.com 中遇到了这个问题:
下面是同一点云的三个散点图。每个散点图显示一组不同的轴(红色)。哪个图中的坐标轴可以代表点云的主要成分?
还记得主成分是数据变化的方向吗?
回答: 情节 1 和 3
我的问题是这个问题是什么意思?为什么图 2 不是答案的一部分,因为轴可以旋转以适应点云。
正如@NelsonGon 所提到的,这在 CrossValidated 上可能会更好......但无论如何:
图 1 和图 3 是正确的,因为它们的轴实际上是使所示平面上的方差最大化的轴。这些向量可以翻转,因为特征向量的符号在 PCA 中是任意的(您会注意到图 1 和图 3 中的红色向量沿着相同的轴,其中之一就是 'flipped')。 然而,图 2 的向量显然没有沿着最大化点云扩散的轴移动,因此你所指的 post 上的答案。
正如评论中所建议的,这更适合交叉验证,或者可能 math.stackexchange。
现在答案直觉上相当简单。
可以通过迭代过程获得主成分,这样:
- 第一个主成分相当于线性组合
a_1 %*% X
,它最大化Var(a_1 %*% X)
t(a_1) %*% a_1 = 1
- 第二个主成分相当于线性组合
a_2 %*% X
,它最大化Var(a_2 %*% X)
受t(a_2) %*% a_2 = 1
和cov(a_1 %*% X, a_2 %*% X) = 0
- 第三个——|| --
从这个定义中注意到 var(a_1 %*% X) = var( - a_1 %*% X)
,因此主成分只能确定到成分的符号。
从这个定义我们可以看出: 1. 1 和 3 是等价的,因为第一条(最长)线位于点分布最广的方向(显示最大方差) 2. 第二个图不能作为主成分,因为方向与最大方差的方向不一致
Applied Multivariate Statistical Analysis 中的第 8 章第 430 页(左右)包含更详细的理论解释。