两种算法之间 FP 和 FN 率的差异

Differences in FP and FN rates between two algorithems

我在使用和不使用 PCA 的情况下使用逻辑回归进行二元分类。与单独的逻辑回归相比,在逻辑回归之前应用 PCA 可提供更高的准确性和更低的 FN。我想知道为什么会这样,特别是为什么 PCA 产生的 FN 较少。我读过成本敏感性分析可以帮助解释这一点,但我不确定这是否正确。有什么建议么?

不需要花哨的分析来解释这种行为。

PCA 通过限制方差仅用于 "clean" 数据。让我用一个例子来解释这个概念,然后我会回到你的问题。

一般来说,在任何 ML 问题中,可用样本的数量永远不足以覆盖样本的所有可能变化 space。你永远不可能拥有一个包含所有可能的人脸、所有可能的表情等的数据集。

因此,不是使用所有可用的功能,而是以一种获得更有意义的更高级别功能的方式设计功能(在本例中为像素)。您可以降低图片的分辨率,举个简单的例子;你会丢失图片背景上的信息,但你的模型会更好地关注图片中最重要的部分,即面部。

当你处理表格数据时,一种类似于降低分辨率的技术会切除部分原始特征,这就是 PCA 所做的:它保留了特征中最重要的组成部分,"Principal Components" ,丢弃不太重要的。

所以,用 PCA 训练的模型给出了更好的结果,因为通过切断部分特征,你的模型更好地关注样本中最重要的部分,因此它获得了对过度拟合的鲁棒性。

干杯