过采样会导致模型过拟合吗？

Question

目标属性分布目前是这样的：

mydata.groupBy("Churn").count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|    1|  483|
|    0| 2850|
+-----+-----+

我的问题是：

Answer 1

my question is any method of oversampling (manully, smote, adasyn) will use the available data to create new data points.

SMOTE（Synthetic Minority Over-sampling TEchnique）即将进入第三步。这是从数据集中创建新的少数 classes 的过程。

SMOTE中的流程如下：

所以，这比过度采样更聪明。

If we use such data to build a classification model, will it not be an overfitted one?

正确答案是可能。试一试！

这就是为什么我们使用 测试集 和 交叉验证 来尝试了解模型是否适用于看不见的数据！

Will oversampling lead to an overfitted model?