两种算法之间 FP 和 FN 率的差异

Differences in FP and FN rates between two algorithems

我在使用和不使用 PCA 的情况下使用逻辑回归进行二元分类。与单独的逻辑回归相比，在逻辑回归之前应用 PCA 可提供更高的准确性和更低的 FN。我想知道为什么会这样，特别是为什么 PCA 产生的 FN 较少。我读过成本敏感性分析可以帮助解释这一点，但我不确定这是否正确。有什么建议么？

不需要花哨的分析来解释这种行为。

PCA 通过限制方差仅用于 "clean" 数据。让我用一个例子来解释这个概念，然后我会回到你的问题。

一般来说，在任何 ML 问题中，可用样本的数量永远不足以覆盖样本的所有可能变化 space。你永远不可能拥有一个包含所有可能的人脸、所有可能的表情等的数据集。

因此，不是使用所有可用的功能，而是以一种获得更有意义的更高级别功能的方式设计功能（在本例中为像素）。您可以降低图片的分辨率，举个简单的例子；你会丢失图片背景上的信息，但你的模型会更好地关注图片中最重要的部分，即面部。

当你处理表格数据时，一种类似于降低分辨率的技术会切除部分原始特征，这就是 PCA 所做的：它保留了特征中最重要的组成部分，"Principal Components" ，丢弃不太重要的。

所以，用 PCA 训练的模型给出了更好的结果，因为通过切断部分特征，你的模型更好地关注样本中最重要的部分，因此它获得了对过度拟合的鲁棒性。

干杯