主成分分析 - 删除功能或不?

Principal component analysis - remove features or not?

当我将 PCA 应用于我的数据集时,PC1 仅占 25% 的变异,而 PC2 占大约 22%。

当我应用随机森林或任何其他机器学习模型时,我是否仍会根据 PCA 输出否定一些轻度相关的变量?或者只有当 PC1 和 PC2 解释了数据集中大约 80% 的变化时才应该这样做?

我不确定我是否清楚地了解了您的问题。无论如何,我猜您想使用 PCA 来提高模型的性能:因此,您应该尝试不同的值并保持组件的数量以最大化验证集上考虑的指标(可能通过交叉验证),几乎独立于您为解释方差获得的实际数值。后者可以让您深入了解正确的数字可能是多少,但出于监督学习的目的,根据您的特定数据集尝试选择更有意义。

如果你的意思是你是否可以根据 PCA 的结果丢弃 原始特征,答案肯定是否定的。相对于原始特征,主要成分“存在于”不同的 space 中,您无法直接判断每个成分由哪些特征组成。如果你想从 PCA 中得到一些东西,你必须在 components 上执行后续的 training/prediction 并忘记原始特征。