Class 与散点图可视化分离

Question

以上是我使用

后得到的图像

plt.scatter(x[feature1],x[classes],c=x[classes])

现在，在我（新手）看来类被这个 feature1 很好地分开了。

在应用 RF 分类器时，我得到大约 55% 的准确度，注意到总类是 7，因此预测准确度高于随机基线，但我很困惑是否存在如此明显的分离（据说）那么为什么结果不相似？

Answer 1

Now, it appears to me (novice) that the classes are well separated by this feature1.

是吗？让我们根据您的情节尝试定性地看...

为了实现良好的分离，我们应该class在给定特征中不重叠（或重叠最少）。似乎表现出这种特征的唯一 classes 是 classes 4 和 5，它们在 2500 附近有相对较小的重叠。

让我们取值2750；根据您的情节，相应的样本可以是 class 1、2、3、5 或 6。

再往高一点，3000左右；这里的各个样本可以是 class 1、2、5 或 7。

向下移动，大约 2500（classes 4 和 5 的重叠区域），似乎样本可以是除 class 7.

之外的任何东西

唯一明确的分隔似乎是大于 3750 (class 7) 的值。即使是特征的最低值（< 2000）也在 classes 3 和 6 之间共享。

从大局来看，它看起来 feature1 本身并不能在您的 7 class 之间提供任何特殊的分离；除了其最小值和最大值周围的区域外，所有其他范围至少由 3-4 classes...

共享

Class separation from scatterplot visualisation