使用 K-means 对数据集中的热门主题进行聚类

Question

我正在尝试使用 K 均值对 Twitter 数据进行聚类，以显示数据集中讨论的主要主题。我目前有一个 CSV 文件，该文件已被清理、标记化并删除了停用词。

我现在正尝试通过使用一个简单的 GUI 来应用 k-means，我希望最终可视化结果，它现在能够运行但它只创建一个包含内容的集群“文本”。如何创建多集群？

我的代码：

def k_means_clustering(self):          

            df = pd.read_csv("test_data.csv")

            vectorizer = TfidfVectorizer(stop_words='english')
            X = vectorizer.fit_transform(df)

            true_k = 1 
            model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
            model.fit(X)

我用这个问题来尝试应用 K-means

Answer 1

更改 true_k 的值将更改 KMeans 函数生成的簇数。

使用 K-means 对数据集中的热门主题进行聚类

Using K-means to cluster top topics in a dataset

python

k-means