获得 R/Java (MOA) 聚类算法结果并使用 python 处理它们的更好方法

Better way to get R/Java (MOA) clustering algorithms results and process them with python

我一直使用Python进行集群,但最近我遇到了一种情况,我需要同时实现CluStreamDenStream (流聚类算法),在RJava中可用([=77=中有一些实现] 来自社区,但我已经尝试过它们,但它们不起作用)。

问题是我 必须比较许多用 Python 编写的聚类算法,并且作为前一阶段我使用的是众所周知的 scikit learn 数据集(展示算法如何处理非球状簇——当然我会使用时间序列数据)。

现在,我想知道 尝试那些 R/Java 算法并计算 Python 中编码的指标的正确方法(DBCV ) 与 R/Java 聚类结果....

--> 所以,总而言之,我需要使用相同的数据集(我认为可能是保存到 csv 文件中)并计算相同的有效性指标(Python)。

如有任何帮助,我们将不胜感激。提前致谢!


编辑:我遇到的解决方案如下:

如果您找到更好的解决方案,请告诉我!


备注:

  1. MOA 是一个 Java 软件。没有充分的理由通过 R 使用它,除非你已经在 R 生态系统中(你不在)。

  2. 您可以将数据写入 CSV 并在您喜欢的任何工具中加载它

  3. 这些数据集不是流。它们没有流的所有困难和挑战——一个简单的子样本就足以识别聚类结构。 从该数据得出的结论是无用的。使用真实的数据流,而不是没有顺序的合成数据。