了解 Scikit Learn 中 Birch 聚类的设置

Understanding settings of Birch clustering in Scikit Learn

我正在测试在 Scikit Learn 中实现的 Birch clustering 算法。我对手册中的声明有点困惑;关于参数 n_clusters,它表示

n_clusters : int, instance of sklearn.cluster model, default None

另一方面,算法的初步描述如下:

class sklearn.cluster.Birch(threshold=0.5, branching_factor=50, n_clusters=3, compute_labels=True, copy=True)

我认为这意味着 n_clusters 默认设置为 3,而不是 None .这也是当我 运行 它时它似乎正在做的事情。

我是不是以某种方式误读了这篇文章?这背后的逻辑是什么?

(我想我不能 100% 确定此设置的实际作用并没有帮助;我理解它是对 Birch 方法的结果应用一种额外的精细聚类。)

非常感谢任何帮助!

是的,你是对的。默认值应该是 3 而不是 None.

n_clusters = integer时,模型拟合变为Agglomerative Clustering,其n_clusters设置为那个integer的值。

n_clusters = None 时,不会执行进一步的聚类步骤,子聚类会像以前一样返回。

See #6635 github issue