scipy 的 fcluster / fclusterdata 中的 t(阈值)参数是什么?

What is the t (threshold) parameter in scipy's fcluster / fclusterdata?

我正在尝试使用 scipy.cluster.hierarchy 进行一些分析。我得到了一个很好的树状图,但是当我想为我的数据获取实际的聚类标签时,我必须为函数 fclusterfclusterdata 设置 t 参数。文档只说它是 float,但这个数字到底是什么意思?我想知道能够正确设置它。编辑 - 例如,当我想要 k 集群并在我的数据集中有 m 样本时,我应该设置什么 t

阈值参数的含义取决于您在 scipy's api 中设置的 criterion。如 api 中所述,有以下 5 个选项:

  1. inconsistent
  2. distance
  3. maxclust
  4. monocrit
  5. maxclust_monocrit

maxclustmaxclust_monocrit 标准中,t 是要形成的最大簇数。因此,关于您的编辑,您应该将其设置为 k.