如何确定 k 意味着什么时候收敛于 tf idf?

How to figure out when k means converges for tf idf?

我对处理文本数据还很陌生。

我有一个包含大约 300,000 个唯一产品名称的数据框,我正在尝试使用 k 均值将相似的名称聚集在一起。我使用 sklearn 的 tfidfvectorizer 对名称进行矢量化并转换为 tf-idf 矩阵。

在我将它转换为稀疏矩阵后,我用 5-10 个簇拟合 k 均值,但我不知道我是否正在收敛。

我该如何解决这个问题?

根据 the source 属性 n_iter_ 应包含 k 均值迭代次数。如果 n_iter_ < max_iter,则算法在给定的公差范围内收敛。

如果您要完成的是确定最佳簇数,则可以将 elbow methodinertia_ 属性结合使用。