使用 Rapidminer 聚类文本

Clustering Textentities with Rapidminer

我有云标签 A、B、C。每个云标签由实体(单词)e,f,g ...

我想找到将云标签分成(大部分)独立集群的好词。例如:

词 e 与 Cloudtag A 和 B 但不是 C ...所以 e 是获得 2 个集群的良好分隔符。

现在大约有 100.000 个云标签和 1.000.000 个单词。我想做同样的事情来获得像 K 集群。一个cloudtag可以属于两个cluster,那不是那么重要。

我知道 k-means,但我不知道如何将数据转换为数字多维数据。据我所知,kmeans 需要数值点来创建集群。

我也想用rapid miner这个软件,但是任何算法,软件作为基本的输入都是很有用的。

提前致谢。

你没有描述聚类。

但是 "cloud tag" 分类的特征(词)选择。

查看决策树,以及用于识别适合拆分的特征的指标。