HDBSCAN参数之间的区别
HDBSCAN difference between parameters
我对 HDBSCAN 中以下参数之间的区别感到困惑
- min_cluster_size
- min_samples
- cluster_selection_epsilon
如有错误请指正
对于min_samples
,如果设置为7,则形成的簇需要有7个或更多的点。
对于cluster_selection_epsilon
,如果设置为0.5米,则任何相距超过0.5米的簇都不会合并为一个。这意味着每个集群将只包含相距 0.5 米或更小的点。
这与 min_cluster_size
有何不同?
他们在技术上做了两件不同的事情。
min_samples
= 核心点的最小邻居数。越高,将丢弃的点数越多,如 noise/outliers。这是来自 HDBScan 的 DBScan 部分。
min_cluster_size
= 最终簇的最小大小。这个值越高,你的集群就越大。这是来自HDBScan的H部分。
增加 min_samples
会增加聚类的大小,但它是通过使用 DBSCAN 将数据作为异常值丢弃来实现的。
在保持 min_samples
较小的同时增加 min_cluster_size
,相比之下,保留了那些异常值,而是将任何较小的集群与其最相似的邻居合并,直到所有集群都在 min_cluster_size
以上。
所以:
- 如果您想要许多高度特定的集群,请使用小
min_samples
和小 min_cluster_size
。
- 如果您想要更笼统的聚类但仍想保留大部分细节,请使用小的
min_samples
和大的 min_cluster_size
- 如果您想要非常非常一般的聚类并丢弃聚类中的大量噪声,请使用大
min_samples
和大 min_cluster_size
。
(不可能使用比 min_cluster_size 大的 min_samples,afaik)
我对 HDBSCAN 中以下参数之间的区别感到困惑
- min_cluster_size
- min_samples
- cluster_selection_epsilon
如有错误请指正
对于min_samples
,如果设置为7,则形成的簇需要有7个或更多的点。
对于cluster_selection_epsilon
,如果设置为0.5米,则任何相距超过0.5米的簇都不会合并为一个。这意味着每个集群将只包含相距 0.5 米或更小的点。
这与 min_cluster_size
有何不同?
他们在技术上做了两件不同的事情。
min_samples
= 核心点的最小邻居数。越高,将丢弃的点数越多,如 noise/outliers。这是来自 HDBScan 的 DBScan 部分。
min_cluster_size
= 最终簇的最小大小。这个值越高,你的集群就越大。这是来自HDBScan的H部分。
增加 min_samples
会增加聚类的大小,但它是通过使用 DBSCAN 将数据作为异常值丢弃来实现的。
在保持 min_samples
较小的同时增加 min_cluster_size
,相比之下,保留了那些异常值,而是将任何较小的集群与其最相似的邻居合并,直到所有集群都在 min_cluster_size
以上。
所以:
- 如果您想要许多高度特定的集群,请使用小
min_samples
和小min_cluster_size
。 - 如果您想要更笼统的聚类但仍想保留大部分细节,请使用小的
min_samples
和大的min_cluster_size
- 如果您想要非常非常一般的聚类并丢弃聚类中的大量噪声,请使用大
min_samples
和大min_cluster_size
。
(不可能使用比 min_cluster_size 大的 min_samples,afaik)