谁能解释一下这个输出到底说了什么?
Can anyone explain me what this output exactly says?
我将 WEKA 与 "weather.arff" 数据集一起使用,然后我应用了具有 10 折交叉验证的朴素贝叶斯分类器,如您在给定快照中所见。除了我在图片中标记为红色的东西外,我几乎都明白了。
总共有 9(Yes)+ 5(No) = 14
个,但这里的总和超过了总和。 yes(0.63)
和 No(0.38)
是什么意思?它们与分类器在 10 倍 CV 后的性能有关吗?
outlook
sunny 3.0 4.0
overcast 5.0 1.0
rainy 4.0 3.0
[total] 12.0 8.0
这里的总数是 20.0
,但是我们有 14
个实例?
这些晴天、阴天和雨天是和否分别算什么?
哪儿来的?
这个加权和是多少?如何计算,与NB有什么关系?
Cross Validation in Weka
中有关于 10 折交叉验证的解释
有 10 组随机选择的数据,分为 90% 的训练数据和 10% 的测试数据。使用 14 行数据,可能需要 12 行用于训练,2 行用于测试。 运行 全部 10 次测试后,将有 20 个结果。这对于有关 outlook 的数据是有意义的,但是 windy 的总计 18 使该理论受到质疑。
我相信图片顶部的 0.63 和 0.38 代表 10 个测试中回答是和否的百分比。
我找到了问题的答案。这个问题叫做 "Zero Frequency Problem",WEKA 所做的是将每个属性值加起来 1。原因是为了避免0概率。否则,当概率相乘时,整个概率将变为0。实际上,概率为零并不能推断出关于该案例的任何新信息。此外,它与 "Cross Validation" 次迭代次数或 CV 性能估计无关。
outlook Yes No
sunny (2+1)=3.0 (3+1)=4.0
overcast (4+1)=5.0 (0+1)=1.0
rainy (3+1)=4.0 (2+1)=3.0
[total] 12.0 8.0
实际实例 = 9 + 5 = 14
另一个重要的事情是 WEKA 对所有属性都这样做,在本例中是阴天、温度、湿度和风。
我将 WEKA 与 "weather.arff" 数据集一起使用,然后我应用了具有 10 折交叉验证的朴素贝叶斯分类器,如您在给定快照中所见。除了我在图片中标记为红色的东西外,我几乎都明白了。
总共有 9(Yes)+ 5(No) = 14
个,但这里的总和超过了总和。 yes(0.63)
和 No(0.38)
是什么意思?它们与分类器在 10 倍 CV 后的性能有关吗?
outlook
sunny 3.0 4.0
overcast 5.0 1.0
rainy 4.0 3.0
[total] 12.0 8.0
这里的总数是 20.0
,但是我们有 14
个实例?
这些晴天、阴天和雨天是和否分别算什么?
哪儿来的?
这个加权和是多少?如何计算,与NB有什么关系?
Cross Validation in Weka
中有关于 10 折交叉验证的解释有 10 组随机选择的数据,分为 90% 的训练数据和 10% 的测试数据。使用 14 行数据,可能需要 12 行用于训练,2 行用于测试。 运行 全部 10 次测试后,将有 20 个结果。这对于有关 outlook 的数据是有意义的,但是 windy 的总计 18 使该理论受到质疑。
我相信图片顶部的 0.63 和 0.38 代表 10 个测试中回答是和否的百分比。
我找到了问题的答案。这个问题叫做 "Zero Frequency Problem",WEKA 所做的是将每个属性值加起来 1。原因是为了避免0概率。否则,当概率相乘时,整个概率将变为0。实际上,概率为零并不能推断出关于该案例的任何新信息。此外,它与 "Cross Validation" 次迭代次数或 CV 性能估计无关。
outlook Yes No
sunny (2+1)=3.0 (3+1)=4.0
overcast (4+1)=5.0 (0+1)=1.0
rainy (3+1)=4.0 (2+1)=3.0
[total] 12.0 8.0
实际实例 = 9 + 5 = 14
另一个重要的事情是 WEKA 对所有属性都这样做,在本例中是阴天、温度、湿度和风。