使用 J48 解释 x 水平中感兴趣的划分属性的结果 (WEKA)

Question

我是数据挖掘和 Weka 的新手。我使用 GUI 在 Weka 中使用 J48 构建了一个分类器，使用 J48（训练集）用于五个级别的感兴趣属性。我必须评估模型的精度，但我不太清楚该怎么做！可能对某些信息感兴趣：

== Detailed Accuracy By Class ===
Precision
0.80
?
0.67
0.56
?
?

首先，我想知道精度栏中“？”的含义。当在两个级别中使用感兴趣的属性进行探测时，我没有得到“？”。这棵树现在比分成两层时更大。我想知道这是否意味着在五个级别上采用感兴趣的属性可能会在分类和计算时间方面生成效率较低的树。这似乎很明显，因为当属性具有 2 个级别时正确分类的实例数量高达 72%。

提前致谢，答得有心有奖！

Answer 1

"I would like to know the meaning of the "?" in the precision column"

请注意，对于这些相同的类，TP 和 FP 率为 0。看来 J48 没有将您的任何观察分配给这些类。

这些类相对较小吗？如果是这样，您可能需要考虑使用 ClassBalancer 过滤器。这将使用权重使所有类看起来大小相同。

当然，拿到模型后还需要"convert back"到实际情况。这类似于校正物理过采样或欠采样。在这里查看我的回答：https://stats.stackexchange.com/questions/211174/how-to-exact-prediction-from-over-sampled-dataundoing-oversampling/257507#257507

Interpreting results using J48 for a divided attribute of interest in x levels (WEKA)