二元分类时数据集不平衡的问题
Issues with imbalanced dataset in case of binary classification
我有一个二进制分类问题,其中数据划分如下:{0:85%,1:15%}。我已经尝试重新加权 class_weights 和其他采样方法。但是我使用的所有方法都给我带来了不尽如人意的结果。
我的数据集是 (91125,57).
Accuracy:1
F1-Score:1
F2-Score:1
Precision:1
Recall:1
AUCROC:1
Kappa:1
有没有其他方法可以处理这种情况?
确保在将数据提供给分类器之前从特征中删除目标变量:
X = df.drop('target',axis=1)
y = df['target']
我还会检查一些自变量是否与目标高度相关。它可能会让您了解导致不切实际的完美分类的原因:
import seaborn as sns
sns.heatmap(X_train.corr())
我有一个二进制分类问题,其中数据划分如下:{0:85%,1:15%}。我已经尝试重新加权 class_weights 和其他采样方法。但是我使用的所有方法都给我带来了不尽如人意的结果。 我的数据集是 (91125,57).
Accuracy:1
F1-Score:1
F2-Score:1
Precision:1
Recall:1
AUCROC:1
Kappa:1
有没有其他方法可以处理这种情况?
确保在将数据提供给分类器之前从特征中删除目标变量:
X = df.drop('target',axis=1)
y = df['target']
我还会检查一些自变量是否与目标高度相关。它可能会让您了解导致不切实际的完美分类的原因:
import seaborn as sns
sns.heatmap(X_train.corr())