使用 Rapidminer 聚类文本

Clustering Textentities with Rapidminer

我有云标签 A、B、C。每个云标签由实体（单词）e,f,g ...

我想找到将云标签分成（大部分）独立集群的好词。例如：

词 e 与 Cloudtag A 和 B 但不是 C ...所以 e 是获得 2 个集群的良好分隔符。

现在大约有 100.000 个云标签和 1.000.000 个单词。我想做同样的事情来获得像 K 集群。一个cloudtag可以属于两个cluster，那不是那么重要。

我知道 k-means，但我不知道如何将数据转换为数字多维数据。据我所知，kmeans 需要数值点来创建集群。

我也想用rapid miner这个软件，但是任何算法，软件作为基本的输入都是很有用的。

提前致谢。

你没有描述聚类。

但是 "cloud tag" 分类的特征（词）选择。

查看决策树，以及用于识别适合拆分的特征的指标。