创建 weka arff 文件时我应该如何处理未知数据

Question

我正在尝试将我的数据集格式化为 weka arff 文件。这是我的 arff 文件的示例：

@relation my_relation
@attribute 'attrib_1' numeric
@attribute 'attrib_2' numeric
@attribute 'attrib_3' numeric
...
@attribute 'class' {1,2,3,4,5}
@data
6,6,55,0,0,0,18.9,0,1,2,'?',14,15,20,'?','?','?','?',28,29,1
54,25,19,4.85,0,1,10,13,'?','?','?','?','?','?',15,16,19,20,21,0,3
...

我的特征是数值和实数值，但在不同的情况下（实例）每个特征都有一些缺失值。我应该如何确定我的特征包含缺失值？（我使用 '?' 表示缺失值，但在尝试打开 mydata.arff

时出现此错误

number expected, read token[?], line 746

) 编辑： 我更改了 '?'到？并尝试加载 file.this 时出现以下错误：

nominal value not declared in header, read Token[86], line 746

Answer 1

这篇评论太长了。我认为我可以看到您的数据可能存在问题。它包含一些坏字符。您可能正在网络浏览器中阅读本文。如果是这样，请查看此页面的 html 来源，然后向下滚动到您的数据。在 Internet Explorer 中，我能够将此网页保存为文本文件，然后只需在编辑器中查看文本即可查看不良字符。在整个数据的许多地方，我看到 ‌这些是零宽度字符（参见 zwnj and 8203。也就是说，它们是数据中存在的字符，但不会显示在屏幕上，甚至不会显示为空白 space。因为您的数据包含这些虚假字符，WEKA 无法读取。请检查您的数据以查看原始数据是否包含这些隐藏字符。

创建 weka arff 文件时我应该如何处理未知数据

what should i do with unknown data while creating weka arff files

weka

arff