主成分分析与特征去除

Principal component analysis vs feature removal

我对机器学习还很陌生,刚刚接触到作为降维方法的主成分分析。我不明白的是,在什么情况下 PCA 比简单地从模型中删除一些特征更好?如果目的是获得低维数据,为什么我们不将那些相关的特征分组并保留每组中的一个特征?

feature reduction(比如PCA)和feature selection(你描述的)有根本的区别。关键区别在于特征缩减 (PCA) 通过 所有 原始维度的某种投影将您的数据映射到较低维度,例如 PCA 使用每个维度的线性组合。所以最终的数据嵌入具有来自所有特征的信息。如果你执行特征选择丢弃信息,你完全丢失了那里存在的任何东西。此外,PCA 保证您保留给定的数据方差部分。