我们可以将主成分(PCA)与其他功能一起使用吗?

Can we use Principal Components(PCA) with other features?

我有一个包含 10 个特征的数据集。其中三个是绝对的;当我对这三个应用 one-hot 编码时,它们爆炸成 96 个特征。我通过 PCA 将这 96 个特征减少为 20 个。

我计划使用 20 个主成分和其余 7 个特征作为我的最终特征集。这是一个好主意:将主成分与实际特征结合起来吗?

PCA 倾向于表示实际特征的组合,大多数时候这种组合会导致一些信息丢失。这通常是降维的公平权衡。添加这些实际特征不会使您的维度太大,并且会得到 "back" PCA 丢失的一些信息。

但我的建议仍然是两者都尝试一下。并选择带来更好结果的那个(根据您的规格)

这种方法在理论上没有问题。从统计的角度来看,您所做的只是 从 PCA 缩减中排除 这七个特征。这意味着您知道,先验,这七个特征是主要成分——它们对结果很重要,而不必分析它们是否独立于其他特征,并且相关性。

正如 loeschet 已经提到的,您应该尝试两种方式:一次是您提议的方式,一次是在您的 PCA 阶段中包含所有 103 个特征。看看哪个能给你带来更好的结果。许多数据集分析包括尝试不同的方法,看看哪种方法能为您提供最佳的实证结果。