谁能解释一下这个输出到底说了什么?

Can anyone explain me what this output exactly says?

我将 WEKA 与 "weather.arff" 数据集一起使用,然后我应用了具有 10 折交叉验证的朴素贝叶斯分类器,如您在给定快照中所见。除了我在图片中标记为红色的东西外,我几乎都明白了。

总共有 9(Yes)+ 5(No) = 14 个,但这里的总和超过了总和。 yes(0.63)No(0.38) 是什么意思?它们与分类器在 10 倍 CV 后的性能有关吗?

outlook
  sunny             3.0     4.0
  overcast          5.0     1.0
  rainy             4.0     3.0
  [total]          12.0     8.0

这里的总数是 20.0,但是我们有 14 个实例? 这些晴天、阴天和雨天是和否分别算什么? 哪儿来的?

这个加权和是多少?如何计算,与NB有什么关系?

Cross Validation in Weka

中有关于 10 折交叉验证的解释

有 10 组随机选择的数据,分为 90% 的训练数据和 10% 的测试数据。使用 14 行数据,可能需要 12 行用于训练,2 行用于测试。 运行 全部 10 次测试后,将有 20 个结果。这对于有关 outlook 的数据是有意义的,但是 windy 的总计 18 使该理论受到质疑。

我相信图片顶部的 0.63 和 0.38 代表 10 个测试中回答是和否的百分比。

我找到了问题的答案。这个问题叫做 "Zero Frequency Problem",WEKA 所做的是将每个属性值加起来 1。原因是为了避免0概率。否则,当概率相乘时,整个概率将变为0。实际上,概率为零并不能推断出关于该案例的任何新信息。此外,它与 "Cross Validation" 次迭代次数或 CV 性能估计无关。

outlook                Yes            No
  sunny             (2+1)=3.0     (3+1)=4.0
  overcast          (4+1)=5.0     (0+1)=1.0
  rainy             (3+1)=4.0     (2+1)=3.0
  [total]             12.0           8.0

实际实例 = 9 + 5 = 14

另一个重要的事情是 WEKA 对所有属性都这样做,在本例中是阴天、温度、湿度和风。