在 SMOTETomek 之前和之后使用 train_test_split 时得分不同

Question

我正在尝试将文本分类为 6 个不同的类。由于我有一个不平衡的数据集，我还使用了 SMOTETomek 方法，该方法应该综合平衡数据集和额外的人工样本。

我注意到通过管道应用它与“逐步”应用时有巨大的分数差异，其中唯一的区别是（我相信）我正在使用的地方 train_test_split

这是我的特征和标签：

for curr_features, label in self.training_data:
    features.append(curr_features)
    labels.append(label)

algorithms = [
    linear_model.SGDClassifier(loss='hinge', penalty='l2', alpha=1e-3, random_state=42, max_iter=5, tol=None),
    naive_bayes.MultinomialNB(),
    naive_bayes.BernoulliNB(),
    tree.DecisionTreeClassifier(max_depth=1000),
    tree.ExtraTreeClassifier(),
    ensemble.ExtraTreesClassifier(),
    svm.LinearSVC(),
    neighbors.NearestCentroid(),
    ensemble.RandomForestClassifier(),
    linear_model.RidgeClassifier(),
]

使用管道：

X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# Provide Report for all algorithms
score_dict = {}
for algorithm in algorithms:
    model = Pipeline([
        ('vect', CountVectorizer()),
        ('tfidf', TfidfTransformer()),
        ('smote', SMOTETomek()),
        ('classifier', algorithm)
    ])
    model.fit(X_train, y_train)

    # Score
    score = model.score(X_test, y_test)
    score_dict[model] = int(score * 100)

sorted_score_dict = {k: v for k, v in sorted(score_dict.items(), key=lambda item: item[1])}
for classifier, score in sorted_score_dict.items():
    print(f'{classifier.__class__.__name__}: score is {score}%')

逐步使用：

vectorizer = CountVectorizer()
transformer = TfidfTransformer()
cv = vectorizer.fit_transform(features)
text_tf = transformer.fit_transform(cv).toarray()

smt = SMOTETomek()
X_smt, y_smt = smt.fit_resample(text_tf, labels)

X_train, X_test, y_train, y_test = train_test_split(X_smt, y_smt, test_size=0.2, random_state=0)
self.test_classifiers(X_train, X_test, y_train, y_test, algorithms)

def test_classifiers(self, X_train, X_test, y_train, y_test, classifiers_list):
    score_dict = {}
    for model in classifiers_list:
        model.fit(X_train, y_train)

        # Score
        score = model.score(X_test, y_test)
        score_dict[model] = int(score * 100)
       
    print()
    print("SCORE:")
    sorted_score_dict = {k: v for k, v in sorted(score_dict.items(), key=lambda item: item[1])}
    for model, score in sorted_score_dict.items():
        print(f'{model.__class__.__name__}: score is {score}%')

我得到（对于最佳分类器模型）大约 65% 使用管道与 90% 使用逐步。不确定我错过了什么。

Answer 1

您的代码本身没有任何问题。但是您的循序渐进的方法使用了机器学习理论中的不良做法：

不要对测试数据重新取样

在您的循序渐进方法中，您首先对所有数据重新采样，然后将它们分成训练集和测试集。这将导致对模型性能的高估，因为您已经更改了测试集中类的原始分布，并且它不再代表原始问题。

您应该做的是 将测试数据保留在其原始分布中 以获得模型对原始数据执行方式的有效近似值，即代表生产情况。因此，您的管道方法是可行的方法。

附带说明：您可以考虑将整个数据准备（矢量化和重采样）从拟合和测试循环中移出，因为您可能想要将模型性能与相同数据进行比较。那么您只需运行这些步骤一次，您的代码执行速度就会更快。

Answer 2

在数据科学 SE 线程 Why you shouldn't upsample before cross validation 中自己的答案中详细描述了这种情况下的正确方法（尽管答案是关于 CV，train/test 拆分案例的基本原理是相同的以及）。简而言之，任何重采样方法（包括 SMOTE）都应仅应用于训练数据，而不应用于验证或测试数据。

鉴于此，您的流水线方法是 正确的：您在拆分后仅将 SMOTE 应用于训练数据，并且根据 imblearn pipeline 的文档：

The samplers are only applied during fit.

因此，在 model.score 期间，实际上没有 SMOTE 应用于您的测试数据，这完全是应该的。

另一方面，您的循序渐进的方法在很多层面上都是错误的，SMOTE 只是其中之一；所有这些预处理步骤都应在 after train/test 拆分后应用，并且仅适用于数据的训练部分，这里不是这种情况，因此结果无效（难怪他们看起来“更好”）。有关如何以及为何仅将这种预处理应用于训练数据的一般性讨论（和实际演示），请参阅我在 Should Feature Selection be done before Train-Test Split or after? 中的 (2) 个答案（同样，那里的讨论是关于特征选择的，但它也适用于计数向量化器和 TF-IDF 转换等特征工程任务。

在 SMOTETomek 之前和之后使用 train_test_split 时得分不同

different score when using train_test_split before vs after SMOTETomek

python

machine-learning

scikit-learn

imblearn

smote