过采样会导致模型过拟合吗?

Will oversampling lead to an overfitted model?

目标属性分布目前是这样的:

mydata.groupBy("Churn").count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|    1|  483|
|    0| 2850|
+-----+-----+

我的问题是:

my question is any method of oversampling (manully, smote, adasyn) will use the available data to create new data points.

  • 数据不平衡问题主要分三步处理:
    1. 对少数人进行过度采样 class。
    2. 对大多数 class 采样不足。
    3. 合成新的少数classes.

SMOTE(Synthetic Minority Over-sampling TEchnique)即将进入第三步。这是从数据集中创建新的少数 classes 的过程。

SMOTE中的流程如下:

所以,这比过度采样更聪明

If we use such data to build a classification model, will it not be an overfitted one?

正确答案是可能。试一试!

这就是为什么我们使用 测试集 交叉验证 来尝试了解模型是否适用于看不见的数据!