ROC 曲线显示出奇怪的模式
ROC curve shows strange pattern
我有一个数据集,我向其中添加了 10-30% 的人工数据和 运行 一种算法来分类哪些数据是原始数据,哪些是人工数据。我得到了附加的 ROC 曲线。我从未见过这样结束的 ROC 曲线。难道我做错了什么?或者这样的模式是可能的?如果是这样,它的解释是什么?
谢谢
如果您的目标数据具有不平衡的双峰分布且 noise/background 分布位于两种模式之间,您可能会看到类似于您所显示的 ROC 曲线。最初(就像在您的图中一样),您会发现 ROC 曲线急剧增加,因为它覆盖了真阳性 (TP) 分布的主峰。接下来,您将拥有一个相对平坦的区域,您可以在其中累积误报 (FP) 而 TP 不会增加太多。然后,你会命中第二组TP。
我猜你的人工数据更接近 TP 主集群的质心,这就是为什么添加更多人工数据往往会淡化较小的 TP 集群并使其看起来更像典型的 ROC 曲线。
正如我在评论中提到的,在没有任何人工数据的情况下绘制 ROC 曲线会提供很多信息。此外,在 TP 速率接近 1 的图的尾端显示放大的版本可能会提供信息(即,查看它是否在接近 1 时变平)。
我有一个数据集,我向其中添加了 10-30% 的人工数据和 运行 一种算法来分类哪些数据是原始数据,哪些是人工数据。我得到了附加的 ROC 曲线。我从未见过这样结束的 ROC 曲线。难道我做错了什么?或者这样的模式是可能的?如果是这样,它的解释是什么?
谢谢
如果您的目标数据具有不平衡的双峰分布且 noise/background 分布位于两种模式之间,您可能会看到类似于您所显示的 ROC 曲线。最初(就像在您的图中一样),您会发现 ROC 曲线急剧增加,因为它覆盖了真阳性 (TP) 分布的主峰。接下来,您将拥有一个相对平坦的区域,您可以在其中累积误报 (FP) 而 TP 不会增加太多。然后,你会命中第二组TP。
我猜你的人工数据更接近 TP 主集群的质心,这就是为什么添加更多人工数据往往会淡化较小的 TP 集群并使其看起来更像典型的 ROC 曲线。
正如我在评论中提到的,在没有任何人工数据的情况下绘制 ROC 曲线会提供很多信息。此外,在 TP 速率接近 1 的图的尾端显示放大的版本可能会提供信息(即,查看它是否在接近 1 时变平)。