在 SMOTETomek 之前和之后使用 train_test_split 时得分不同

different score when using train_test_split before vs after SMOTETomek

我正在尝试将文本分类为 6 个不同的 类。 由于我有一个不平衡的数据集,我还使用了 SMOTETomek 方法,该方法应该综合平衡数据集和额外的人工样本。

我注意到通过管道应用它与“逐步”应用时有巨大的分数差异,其中唯一的区别是(我相信)我正在使用的地方 train_test_split

这是我的特征和标签:

for curr_features, label in self.training_data:
    features.append(curr_features)
    labels.append(label)

algorithms = [
    linear_model.SGDClassifier(loss='hinge', penalty='l2', alpha=1e-3, random_state=42, max_iter=5, tol=None),
    naive_bayes.MultinomialNB(),
    naive_bayes.BernoulliNB(),
    tree.DecisionTreeClassifier(max_depth=1000),
    tree.ExtraTreeClassifier(),
    ensemble.ExtraTreesClassifier(),
    svm.LinearSVC(),
    neighbors.NearestCentroid(),
    ensemble.RandomForestClassifier(),
    linear_model.RidgeClassifier(),
]

使用管道:

X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# Provide Report for all algorithms
score_dict = {}
for algorithm in algorithms:
    model = Pipeline([
        ('vect', CountVectorizer()),
        ('tfidf', TfidfTransformer()),
        ('smote', SMOTETomek()),
        ('classifier', algorithm)
    ])
    model.fit(X_train, y_train)

    # Score
    score = model.score(X_test, y_test)
    score_dict[model] = int(score * 100)

sorted_score_dict = {k: v for k, v in sorted(score_dict.items(), key=lambda item: item[1])}
for classifier, score in sorted_score_dict.items():
    print(f'{classifier.__class__.__name__}: score is {score}%')

逐步使用:

vectorizer = CountVectorizer()
transformer = TfidfTransformer()
cv = vectorizer.fit_transform(features)
text_tf = transformer.fit_transform(cv).toarray()

smt = SMOTETomek()
X_smt, y_smt = smt.fit_resample(text_tf, labels)

X_train, X_test, y_train, y_test = train_test_split(X_smt, y_smt, test_size=0.2, random_state=0)
self.test_classifiers(X_train, X_test, y_train, y_test, algorithms)

def test_classifiers(self, X_train, X_test, y_train, y_test, classifiers_list):
    score_dict = {}
    for model in classifiers_list:
        model.fit(X_train, y_train)

        # Score
        score = model.score(X_test, y_test)
        score_dict[model] = int(score * 100)
       
    print()
    print("SCORE:")
    sorted_score_dict = {k: v for k, v in sorted(score_dict.items(), key=lambda item: item[1])}
    for model, score in sorted_score_dict.items():
        print(f'{model.__class__.__name__}: score is {score}%')

我得到(对于最佳分类器模型)大约 65% 使用管道与 90% 使用逐步。 不确定我错过了什么。

您的代码本身没有任何问题。但是您的循序渐进的方法使用了机器学习理论中的不良做法:

不要对测试数据重新取样

在您的循序渐进方法中,您首先对所有数据重新采样,然后将它们分成训练集和测试集。这将导致对模型性能的高估,因为您已经更改了测试集中 类 的原始分布,并且它不再代表原始问题。

您应该做的是 将测试数据保留在其原始分布中 以获得模型对原始数据执行方式的有效近似值,即代表生产情况。因此,您的管道方法是可行的方法。

附带说明:您可以考虑将整个数据准备(矢量化和重采样)从拟合和测试循环中移出,因为您可能想要将模型性能与相同数据进行比较。那么您只需 运行 这些步骤一次,您的代码执行速度就会更快。

在数据科学 SE 线程 Why you shouldn't upsample before cross validation 中自己的答案中详细描述了这种情况下的正确方法(尽管答案是关于 CV,train/test 拆分案例的基本原理是相同的以及)。简而言之,任何重采样方法(包括 SMOTE)都应仅应用于训练数据,而不应用于验证或测试数据。

鉴于此,您的流水线方法是 正确的:您在拆分后仅将 SMOTE 应用于训练数据,并且根据 imblearn pipeline 的文档:

The samplers are only applied during fit.

因此,在 model.score 期间,实际上没有 SMOTE 应用于您的测试数据,这完全是应该的。

另一方面,您的循序渐进的方法在很多层面上都是错误的,SMOTE 只是其中之一;所有这些预处理步骤都应在 after train/test 拆分后应用,并且仅适用于数据的训练部分,这里不是这种情况,因此结果无效(难怪他们看起来“更好”)。有关如何以及为何仅将这种预处理应用于训练数据的一般性讨论(和实际演示),请参阅我在 Should Feature Selection be done before Train-Test Split or after? 中的 (2) 个答案(同样,那里的讨论是关于特征选择的,但它也适用于计数向量化器和 TF-IDF 转换等特征工程任务。