了解 Scikit Learn 中 Birch 聚类的设置

Question

我正在测试在 Scikit Learn 中实现的 Birch clustering 算法。我对手册中的声明有点困惑；关于参数 n_clusters，它表示

n_clusters : int, instance of sklearn.cluster model, default None

另一方面，算法的初步描述如下：

class sklearn.cluster.Birch(threshold=0.5, branching_factor=50, n_clusters=3, compute_labels=True, copy=True)

我认为这意味着 n_clusters 默认设置为 3，而不是 None .这也是当我运行它时它似乎正在做的事情。

我是不是以某种方式误读了这篇文章？这背后的逻辑是什么？

（我想我不能 100% 确定此设置的实际作用并没有帮助；我理解它是对 Birch 方法的结果应用一种额外的精细聚类。）

非常感谢任何帮助！

Answer 1

是的，你是对的。默认值应该是 3 而不是 None.

当n_clusters = integer时，模型拟合变为Agglomerative Clustering，其n_clusters设置为那个integer的值。

当 n_clusters = None 时，不会执行进一步的聚类步骤，子聚类会像以前一样返回。

Understanding settings of Birch clustering in Scikit Learn