RapidMiner:计算文档相似度

RapidMiner: Calculate document similarity

我正在使用 Rapidminer 来计算文档之间的相似度。我正在使用我的 Java 应用程序 中的这个过程。

此过程计算每个文档与数据集中每个其他文档的相似度。我不想计算每个文档之间的相似度。 我只想计算一个选定文档与所有其他文档的相似度。

Process Document 给了我一个词向量及其 tf-idf 分数。
Data to Similarity 计算这些向量之间的 Cosine Similarity

所以基本上我需要计算一个选定文档与数据集中所有其他文档的余弦相似度。

RapidMiner 可以吗?任何见解都会有所帮助。谢谢。

编辑:
答案:

Cross Distances 运算符会更好。它需要两个输入,这两个输入都是示例集。第一个可以是所有文档的特征列表,第二个可以是单个文档的特征列表。结果是一个带有距离计算的新示例集。如果您对这个示例集进行排序(运算符可能已经 returns 一个排序列表,但以防万一您可以使用 Sort)找到这个最小值并使用 Filter Example Range 到 select 它, 你会得到最近文件的详细信息。