使用 K-means 对数据集中的热门主题进行聚类
Using K-means to cluster top topics in a dataset
我正在尝试使用 K 均值对 Twitter 数据进行聚类,以显示数据集中讨论的主要主题。我目前有一个 CSV 文件,该文件已被清理、标记化并删除了停用词。
我现在正尝试通过使用一个简单的 GUI 来应用 k-means,我希望最终可视化结果,它现在能够 运行 但它只创建一个包含内容的集群“文本”。如何创建多集群?
我的代码:
def k_means_clustering(self):
df = pd.read_csv("test_data.csv")
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(df)
true_k = 1
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)
我用这个问题来尝试应用 K-means
更改 true_k
的值将更改 KMeans
函数生成的簇数。
我正在尝试使用 K 均值对 Twitter 数据进行聚类,以显示数据集中讨论的主要主题。我目前有一个 CSV 文件,该文件已被清理、标记化并删除了停用词。
我现在正尝试通过使用一个简单的 GUI 来应用 k-means,我希望最终可视化结果,它现在能够 运行 但它只创建一个包含内容的集群“文本”。如何创建多集群?
我的代码:
def k_means_clustering(self):
df = pd.read_csv("test_data.csv")
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(df)
true_k = 1
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)
我用这个问题来尝试应用 K-means
更改 true_k
的值将更改 KMeans
函数生成的簇数。