class 是肯定的,以及如何在为 ML 准备数据时确定真正的警报

which class is positive and how to determine real alarm in preparing data for ML

我正在为机器学习准备一些数据。 这道题会很简单,但我有点困惑。

假设有系统每 1 小时有大约 100 个警报,并且只有 1 或 2 个警报是它们的真正警报。假警报将被人类忽略。我收集了一些看起来像特征的数据,并将标签 0 或 1 标记为假警报或真警报。

这样的话,真正的报警是0还是1?借此,TP、TN、FP、FN、机会水平将发生变化。我们感兴趣的是真正的警报,即使所有警报都是人工检查的,我们也不想错过它。

几乎警报是假的,所以机会水平将超过 95%。那么 major class 和 positive class 会是 1 和 fake alarm?但我们的兴趣不是假警报。 在这种情况下我应该如何设置标签?

这两种方式对模型的性能都一样好,因为损失函数不受你标记 1 或 0 的方式的影响。我个人认为 0 应该用于伪造的,1 用于真实的。