如何确定 k 意味着什么时候收敛于 tf idf?
How to figure out when k means converges for tf idf?
我对处理文本数据还很陌生。
我有一个包含大约 300,000 个唯一产品名称的数据框,我正在尝试使用 k 均值将相似的名称聚集在一起。我使用 sklearn 的 tfidfvectorizer 对名称进行矢量化并转换为 tf-idf 矩阵。
在我将它转换为稀疏矩阵后,我用 5-10 个簇拟合 k 均值,但我不知道我是否正在收敛。
我该如何解决这个问题?
根据 the source 属性 n_iter_
应包含 k 均值迭代次数。如果 n_iter_ < max_iter
,则算法在给定的公差范围内收敛。
如果您要完成的是确定最佳簇数,则可以将 elbow method 与 inertia_
属性结合使用。
我对处理文本数据还很陌生。
我有一个包含大约 300,000 个唯一产品名称的数据框,我正在尝试使用 k 均值将相似的名称聚集在一起。我使用 sklearn 的 tfidfvectorizer 对名称进行矢量化并转换为 tf-idf 矩阵。
在我将它转换为稀疏矩阵后,我用 5-10 个簇拟合 k 均值,但我不知道我是否正在收敛。
我该如何解决这个问题?
根据 the source 属性 n_iter_
应包含 k 均值迭代次数。如果 n_iter_ < max_iter
,则算法在给定的公差范围内收敛。
如果您要完成的是确定最佳簇数,则可以将 elbow method 与 inertia_
属性结合使用。