具有多个 ARFF 文件的 WEKA 预测
WEKA prediction with multiple ARFF files
我是 WEKA
和 ARFF
文件的新手,目前正在使用它的 GUI
。我感到困惑的是如何使用多个 ARFF
文件进行预测(分类)?
例如文件A有3个属性,"ID"
、"attribute_1"
、"attribute_2"
;而文件 B 有 2 个属性,"ID"
,"Scores"
(用于预测的主要属性)。
问题是,file A
中的每一行数据都是唯一的,但是B
中的数据是重复的。这两个文件通过 "ID"
相关。换句话说,file B
为 file A
.
处的每个元素存储一组 "scores"
有没有关于如何将 file A
和 B
连接在一起的建议?或者有什么方法可以解决 WEKA
问题?
Weka 需要一个 "flattened" table,即 arff
-文件。这个过程也称为反规范化。有一个 weka 包 (Denormalize),其中包含一个过滤器来执行此操作。
此处有一个如何扁平化交易数据的示例:https://weka.wikispaces.com/How+can+I+use+transactional+data+in+Weka%3F
在使用过滤器之前,您必须将两个文件合并在一起。如果您有 csv
文件或类似的东西,您可以通过 Excel 实现此目的,例如:
https://superuser.com/questions/420635/how-do-i-join-two-worksheets-in-excel-as-i-would-in-sql
我是 WEKA
和 ARFF
文件的新手,目前正在使用它的 GUI
。我感到困惑的是如何使用多个 ARFF
文件进行预测(分类)?
例如文件A有3个属性,"ID"
、"attribute_1"
、"attribute_2"
;而文件 B 有 2 个属性,"ID"
,"Scores"
(用于预测的主要属性)。
问题是,file A
中的每一行数据都是唯一的,但是B
中的数据是重复的。这两个文件通过 "ID"
相关。换句话说,file B
为 file A
.
"scores"
有没有关于如何将 file A
和 B
连接在一起的建议?或者有什么方法可以解决 WEKA
问题?
Weka 需要一个 "flattened" table,即 arff
-文件。这个过程也称为反规范化。有一个 weka 包 (Denormalize),其中包含一个过滤器来执行此操作。
此处有一个如何扁平化交易数据的示例:https://weka.wikispaces.com/How+can+I+use+transactional+data+in+Weka%3F
在使用过滤器之前,您必须将两个文件合并在一起。如果您有 csv
文件或类似的东西,您可以通过 Excel 实现此目的,例如:
https://superuser.com/questions/420635/how-do-i-join-two-worksheets-in-excel-as-i-would-in-sql