python k-均值聚类文本
python k-means clustering text
我正试图找到一个示例来帮助我对我拥有的一些文本数据进行聚类。数据格式为:
A,B,3
C,D,5
A,D,57
前两个条目是一对的成员,数字是这对在数据集中出现的频率。我有超过 200,000 对独特的双鞋。
有什么建议吗?谢谢!!
不要对此类数据使用 k-means。
不行。
您拥有的是相似度矩阵,而不是 k-means 所需的连续向量。你可以尝试层次聚类(具有稀疏相似性,不是距离;不,我不会给你写代码)。
我正试图找到一个示例来帮助我对我拥有的一些文本数据进行聚类。数据格式为:
A,B,3
C,D,5
A,D,57
前两个条目是一对的成员,数字是这对在数据集中出现的频率。我有超过 200,000 对独特的双鞋。
有什么建议吗?谢谢!!
不要对此类数据使用 k-means。
不行。
您拥有的是相似度矩阵,而不是 k-means 所需的连续向量。你可以尝试层次聚类(具有稀疏相似性,不是距离;不,我不会给你写代码)。