Class 与散点图可视化分离

Class separation from scatterplot visualisation

以上是我使用

后得到的图像
plt.scatter(x[feature1],x[classes],c=x[classes])

现在,在我(新手)看来 类 被这个 feature1 很好地分开了。

在应用 RF 分类器时,我得到大约 55% 的准确度,注意到总 类 是 7,因此预测准确度高于随机基线,但我很困惑是否存在如此明显的分离(据说)那么为什么结果不相似?

Now, it appears to me (novice) that the classes are well separated by this feature1.

是吗?让我们根据您的情节尝试定性地看...

为了实现良好的分离,我们应该class在给定特征中不重叠(或重叠最少)。似乎表现出这种特征的唯一 classes 是 classes 4 和 5,它们在 2500 附近有相对较小的重叠。

让我们取值2750;根据您的情节,相应的样本可以是 class 1、2、3、5 或 6。

再往高一点,3000左右;这里的各个样本可以是 class 1、2、5 或 7。

向下移动,大约 2500(classes 4 和 5 的重叠区域),似乎样本可以是除 class 7.

之外的任何东西

唯一明确的分隔似乎是大于 3750 (class 7) 的值。即使是特征的最低值(< 2000)也在 classes 3 和 6 之间共享。

从大局来看,它看起来 feature1 本身并不能在您的 7 class 之间提供任何特殊的分离;除了其最小值和最大值周围的区域外,所有其他范围至少由 3-4 classes...

共享