K 均值 VS K 模式? (文本聚类)

K-Means VS K-Modes? (text clustering)

我知道 K-Means 可用于通过矢量化和查找文档的 TF-IDF 值来对文档进行聚类。 When/how 除了 categorical/continuous 变量定义之外,我们是否决定哪一个 (K-Means or K-modes) 可能产生更好的结果?一个人真的能给出更好的结果还是个案分析?

我已经使用 tf-idf 进行了 KMeans 聚类,它们似乎给出了不错的结果,但我找不到任何 material 比较两者来尝试 K-Modes。互联网上也有很多关于文本聚类的 k-means+tf-idf,但关于 k-modes 的内容并不多。感谢您的帮助!

K-modes 实际上只适用于分类数据。不适用于 稀疏 数值数据,如词袋或 tf-idf 向量。

考虑模式:它通常不会给出全零向量吗?那么你所有的集群均值将消失。

根据我的经验,文本上的 k-means 也很有效 非常 除了你的数据。因为它无法处理异常值,文本数据中充满了异常值文档。