minpts=4 是否是使用 DBSCAN 算法进行聚类的任何数据集的最佳设置?

Does minpts=4 is the best setting for any dataset using DBSCAN algorithm for clustering?

关于 DBSCAN“https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf”的文章解释说,对于使用 DBSCAN 对数据点进行聚类的任何数据集,minpts 值必须为 4。它是否给出了任何 Eps 值的最佳结果?

没有"always best"这样的东西。 IIRC 作者建议首先尝试该值。这并不意味着您有时不应该尝试其他值。我通常从 minpts=10...

开始

此外,您还需要改变 epsilon。正确选择 epsilon 可能比 minpts 更重要。这两个参数不是独立的。增加 minpts 可能意味着你需要 增加 epsilon,反之亦然。

在后面的工作中,作者建议使用minPts = 2 * dim作为默认值。

J. Sander, M. Ester, H.-P. Kriegel, and X. Xu. 1998.
Density-Based Clustering in Spatial Databases:
The Algorithm GDBSCAN and its Applications.

Data Mining and Knowledge Discovery 2, 2 (1998), 169–194.
http://dx.doi.org/10.1023/A:1009745219419

如果有重复项,请使用较大的值: “我们的实验表明该值适用于每个点只出现一次的数据库 D,即如果 D 确实是一组点。

较小的值通常计算效率更高。因此,保持 minPts 较小但不要太小。

总是研究你的结果。切勿在未仔细检查的情况下使用它。

通常您的 minpts 值应该 >= d + 1,其中 d 是数据点的维数。所以通常它被视为 minpts = 2*d 正如埃里希舒伯特在第一个答案中提到的那样。

但有些情况下,例如当您知道数据集包含很多 noise/outliers 时,建议将 minpts 的值调大。

有时您可能需要咨询领域专家才能获得 minpts 的值。