为 Weka 生成 Arff 文件

Generate an Arff File for Weka

嗨,我是这项工作的新手,在搜索如何完成它后我感到很困惑! 实际上我想为 weka 创建一个稀疏的 ARFF 文件用于文本 classification!我一直在网上搜索如何开始使用它。我的要求是生成一个应该与 weka 兼容的稀疏 arff 文件! arff 的大纲应该是这样的:

 @relation myrelation
 @attribute att0 numeric
 @attribute att1 numeric
 @data
 {0,1,4,5 , A}
 {0,5,2,,1 B}

这样我就有了一些字符串,然后是 class 假设我的数据集如下:

 string is a string A
 Hello a string B
 Another is string C
 .
 .
 .

首先是字符串,然后是 class 作为 A、B 或 C... 所以我想要的是将我的数据集转换成上面提到的稀疏 arff 格式。 有人可以给我一个方向,我该怎么做?请 我想在 java

完成

您可以使用 Weka 的 StringToWordVector 过滤器将文本转换为词向量(但不一定是稀疏矩阵)。看看我的tutorial