DBSCAN 算法异常值

DBSCAN Algorithm outliers

在 DBSCAN 算法中,离群值通常作为噪声被丢弃,但在某些应用程序中,这些噪声数据可能比更经常出现的数据更有趣。为什么?

标记为异常值的点不会被丢弃,它们只是不在任何聚类中的点。您仍然可以检查非聚类点集并尝试解释它们。

DBSCAN 旨在在不知道有多少簇或它们的形状的情况下给出簇。它通过从足够密集区域的起点迭代扩展集群来实现这一点。离群值只是 sparsley 人口稠密区域中的点(由 eps 和 minPoints 参数定义)。

实际上,选择不包含这些离群值的参数时需要格外小心。如果它们被包含在集群中,它们通常充当集群之间的桥梁,并导致它们合并成一个分析上无用的 blob。

聚类点相似。它们具有相同的属性,讲述相同的故事,可能是多余的。

噪声点(DBSCAN 不擅长检测实际异常值!)是所有未聚类的数据点。 您甚至可以将这些数据点视为 普通数据,因为它们不聚类 .

要检测实际异常值(错误或特别有趣的对象),请使用专门的异常值检测算法。