使用 python 在文本聚类中绘制单词

Plotting words in text clustering using python

我的聚类结果如下图所示。

是否有任何类似于 fvid_clusters 的库可以生成如下图所示的图? (使用 PYTHON)

  • 第 1 步:将单词向量化为向量(每个大小为 n)
  • 第 2 步:使用 kmean 将它们聚类成 k 个簇
  • 第 3 步:运行 对第 1 步中生成的向量进行主成分分析,并将其降为二维(比如 x、y)
  • 第 4 步:在位置 (x, y) 处绘制单词,其中 (x,y) 是 PCA 从其大小为 n 的全尺寸向量中减少的维度。为第 2 步中确定的属于哪个聚类的单词着色(每个聚类使用一种颜色)。

绘图与您显示的不完全一样,但我喜欢使用两种工具来探索文本聚类的结果(两者都绑定了 Python)。

白蚁http://vis.stanford.edu/papers/termite

UMAP: https://umap-learn.readthedocs.io/en/latest/

这是使用 BBC Sports dataset.

使用 NMF(来自我的论文)进行主题建模的结果