具有多个 ARFF 文件的 WEKA 预测

WEKA prediction with multiple ARFF files

我是 WEKAARFF 文件的新手,目前正在使用它的 GUI。我感到困惑的是如何使用多个 ARFF 文件进行预测(分类)?

例如文件A有3个属性,"ID""attribute_1""attribute_2";而文件 B 有 2 个属性,"ID""Scores"(用于预测的主要属性)。

问题是,file A中的每一行数据都是唯一的,但是B中的数据是重复的。这两个文件通过 "ID" 相关。换句话说,file Bfile A.

处的每个元素存储一组 "scores"

有没有关于如何将 file AB 连接在一起的建议?或者有什么方法可以解决 WEKA 问题?

Weka 需要一个 "flattened" table,即 arff-文件。这个过程也称为反规范化。有一个 weka 包 (Denormalize),其中包含一个过滤器来执行此操作。

此处有一个如何扁平化交易数据的示例:https://weka.wikispaces.com/How+can+I+use+transactional+data+in+Weka%3F

在使用过滤器之前,您必须将两个文件合并在一起。如果您有 csv 文件或类似的东西,您可以通过 Excel 实现此目的,例如:

https://superuser.com/questions/420635/how-do-i-join-two-worksheets-in-excel-as-i-would-in-sql