具有多个 ARFF 文件的 WEKA 预测

WEKA prediction with multiple ARFF files

我是 WEKA 和 ARFF 文件的新手，目前正在使用它的 GUI。我感到困惑的是如何使用多个 ARFF 文件进行预测（分类）？

例如文件A有3个属性，"ID"、"attribute_1"、"attribute_2"；而文件 B 有 2 个属性，"ID"，"Scores"（用于预测的主要属性）。

问题是，file A中的每一行数据都是唯一的，但是B中的数据是重复的。这两个文件通过 "ID" 相关。换句话说，file B 为 file A.

处的每个元素存储一组 "scores"

有没有关于如何将 file A 和 B 连接在一起的建议？或者有什么方法可以解决 WEKA 问题？

Weka 需要一个 "flattened" table，即 arff-文件。这个过程也称为反规范化。有一个 weka 包 (Denormalize)，其中包含一个过滤器来执行此操作。

在使用过滤器之前，您必须将两个文件合并在一起。如果您有 csv 文件或类似的东西，您可以通过 Excel 实现此目的，例如：