过采样会导致模型过拟合吗?
Will oversampling lead to an overfitted model?
目标属性分布目前是这样的:
mydata.groupBy("Churn").count().show()
+-----+-----+
|Churn|count|
+-----+-----+
| 1| 483|
| 0| 2850|
+-----+-----+
我的问题是:
过采样方法,如:manully、smote、adasyn 将使用可用数据创建新数据点?
如果用这样的数据训练分类模型,会不会过拟合?
my question is any method of oversampling (manully, smote, adasyn) will use the available data to create new data points.
- 数据不平衡问题主要分三步处理:
- 对少数人进行过度采样 class。
- 对大多数 class 采样不足。
- 合成新的少数classes.
SMOTE(Synthetic Minority Over-sampling TEchnique)即将进入第三步。这是从数据集中创建新的少数 classes 的过程。
SMOTE中的流程如下:
所以,这比过度采样更聪明。
If we use such data to build a classification model, will it not be an overfitted one?
正确答案是可能。试一试!
这就是为什么我们使用 测试集 和 交叉验证 来尝试了解模型是否适用于看不见的数据!
目标属性分布目前是这样的:
mydata.groupBy("Churn").count().show()
+-----+-----+
|Churn|count|
+-----+-----+
| 1| 483|
| 0| 2850|
+-----+-----+
我的问题是:
过采样方法,如:manully、smote、adasyn 将使用可用数据创建新数据点?
如果用这样的数据训练分类模型,会不会过拟合?
my question is any method of oversampling (manully, smote, adasyn) will use the available data to create new data points.
- 数据不平衡问题主要分三步处理:
- 对少数人进行过度采样 class。
- 对大多数 class 采样不足。
- 合成新的少数classes.
SMOTE(Synthetic Minority Over-sampling TEchnique)即将进入第三步。这是从数据集中创建新的少数 classes 的过程。
SMOTE中的流程如下:
所以,这比过度采样更聪明。
If we use such data to build a classification model, will it not be an overfitted one?
正确答案是可能。试一试!
这就是为什么我们使用 测试集 和 交叉验证 来尝试了解模型是否适用于看不见的数据!