创建 weka arff 文件时我应该如何处理未知数据

what should i do with unknown data while creating weka arff files

我正在尝试将我的数据集格式化为 weka arff 文件。这是我的 arff 文件的示例:

@relation my_relation
@attribute 'attrib_1' numeric
@attribute 'attrib_2' numeric
@attribute 'attrib_3' numeric
...
@attribute 'class' {1,2,3,4,5}
@data
6,6,55,0,0,0,18.9,0,1,2,'?',14,15,20,'?','?','?','?',28,29,1
54,25,19,4.85,0,1,10,13,'?','?','?','?','?','?',15,16,19,20,21,0,3
...

我的特征是数值和实数值,但在不同的情况下(实例)每个特征都有一些缺失值。我应该如何确定我的特征包含缺失值? (我使用 '?' 表示缺失值,但在尝试打开 mydata.arff

时出现此错误
number expected, read token[?], line 746

) 编辑: 我更改了 '?'到 ?并尝试加载 file.this 时出现以下错误:

nominal value not declared in header, read Token[86], line 746

这篇评论太长了。我认为我可以看到您的数据可能存在问题。它包含一些坏字符。您可能正在网络浏览器中阅读本文。如果是这样,请查看此页面的 html 来源,然后向下滚动到您的数据。在 Internet Explorer 中,我能够将此网页保存为文本文件,然后只需在编辑器中查看文本即可查看不良字符。在整个数据的许多地方,我看到 ‌​这些是零宽度字符(参见 zwnj and 8203。也就是说,它们是数据中存在的字符,但不会显示在屏幕上,甚至不会显示为空白 space。因为您的数据包含这些虚假字符,WEKA 无法读取。请检查您的数据以查看原始数据是否包含这些隐藏字符。