分类:推文情感分析——步骤顺序
Classification: Tweet Sentiment Analysis - Order of steps
我目前正在进行推文情绪分析,有几个关于正确步骤顺序的问题。请假设数据已经过相应的预处理和准备。所以这就是我将如何进行:
- 使用
train_test_split
(80:20比例)保留测试
数据集。
- 矢量化
x_train
因为推文不是数字。
在接下来的步骤中,我想确定最佳分类器。请假设那些已经导入。所以我会继续:
- 超参数化(网格搜索),包括交叉验证方法。
在这一步中,我想确定每个的最佳参数
分类器。对于KNN,代码如下:
model = KNeighborsClassifier()
n_neighbors = range(1, 10, 2)
weights = ['uniform', 'distance']
metric = ['euclidean', 'manhattan', 'minkowski']
# define grid search
grid = dict(n_neighbors=n_neighbors, weights=weights ,metric=metric)
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
grid_search = GridSearchCV(estimator=model, param_grid=grid, n_jobs=-1, cv=cv, scoring='accuracy',error_score=0)
grid_result = grid_search.fit(train_tf, y_train)
# summarize results
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']
for mean, stdev, param in zip(means, stds, params):
print("%f (%f) with: %r" % (mean, stdev, param))
- 比较分类器的准确性(取决于最佳超参数)
- 选择最好的分类器
- 取版主的测试数据集(来自
train_test_split()
),在测试数据上使用最好的分类器
这是正确的方法还是您会建议更改某些内容(例如,单独进行交叉验证而不是在超参数化中进行)?将测试数据作为最后一步进行测试是否有意义,还是我应该更早进行以评估未知数据集的准确性?
有很多方法可以做到这一点,人们对此有强烈的看法,我并不总是相信他们完全理解他们所倡导的。
TL;DR:您的方法看起来不错,而且您提出的问题很明智。
话虽如此,这里有一些事情需要考虑:
- 为什么要进行训练测试拆分验证?
- 你为什么要做超参数调整?
- 为什么要进行交叉验证?
是的,这些技术中的每一个都擅长做一些特定的事情;但这并不一定意味着它们都应该属于同一管道。
首先,让我们回答这些问题:
Train-Test Split 对于测试分类器的推理能力很有用。换句话说,我们想知道分类器在总体上 的表现如何(不是在我们用于训练的数据上)。测试部分允许我们在不使用训练部分的情况下评估我们的分类器。
Hyperparameter-Tuning 对于评估超参数对分类器性能的影响很有用。为了使其有意义,我们必须比较两个(或更多)模型(使用不同的超参数),但最好使用相同的训练部分进行训练(以消除选择偏差)。一旦我们知道性能最好的超参数,我们会做什么?这组超参数是否总是表现最佳?不。您会看到,由于分类的随机性,一个超参数集可能在实验 A 中效果最好,然后另一组超参数可能在实验 B 中效果最好。相反,超参数调整有助于概括何时使用哪些超参数构建分类器。
交叉验证 用于消除与构建分类器相关的一些随机性。因此,机器学习管道可能会生成一个分类器,使用 1 个测试折叠的准确率为 94%,使用另一个测试折叠的准确率为 83%。这是什么意思?这可能意味着 1 折包含简单的样本。或者它可能意味着分类器,无论出于何种原因,实际上更好。你不知道,因为它是一个黑盒子。
实用,这有什么帮助?
我认为使用测试训练拆分 和 交叉验证没有什么价值。我使用交叉验证并将准确性报告为 n 倍的平均值。它已经在测试我的分类器的性能。我不明白为什么进一步划分训练数据以进行另一轮训练测试验证会有帮助。使用平均值。话虽如此,我使用在交叉验证期间创建的 n 倍模型中性能最好的模型作为我的最终模型。正如我所说,它是黑盒,所以我们无法 知道 哪个模型最好,但是,在其他条件相同的情况下,您不妨使用性能最好的模型。它实际上可能 更好。
超参数调整很有用,但进行大量调整可能需要很长时间。我建议在您的管道中添加超参数调整,但只测试 2 组超参数。因此,除了 1 之外,保持所有超参数不变。例如批量大小 = {64, 128}。 运行 这样,您就可以自信地说,“哦,这有很大的不同:64 比 128 更好用!”或“好吧,那是浪费时间。无论哪种方式都没有太大区别。”如果差异很小,请忽略该超参数并尝试另一对。这样,您将慢慢地朝着最佳方向前进,而不会浪费所有时间。
在实践中,我会说将广泛的超参数调整留给学术界并采取更务实的方法。
但是,是的,您的方法看起来不错。我认为你在思考你在做什么,这已经让你领先了一步。
我目前正在进行推文情绪分析,有几个关于正确步骤顺序的问题。请假设数据已经过相应的预处理和准备。所以这就是我将如何进行:
- 使用
train_test_split
(80:20比例)保留测试 数据集。 - 矢量化
x_train
因为推文不是数字。
在接下来的步骤中,我想确定最佳分类器。请假设那些已经导入。所以我会继续:
- 超参数化(网格搜索),包括交叉验证方法。 在这一步中,我想确定每个的最佳参数 分类器。对于KNN,代码如下:
model = KNeighborsClassifier()
n_neighbors = range(1, 10, 2)
weights = ['uniform', 'distance']
metric = ['euclidean', 'manhattan', 'minkowski']
# define grid search
grid = dict(n_neighbors=n_neighbors, weights=weights ,metric=metric)
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
grid_search = GridSearchCV(estimator=model, param_grid=grid, n_jobs=-1, cv=cv, scoring='accuracy',error_score=0)
grid_result = grid_search.fit(train_tf, y_train)
# summarize results
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']
for mean, stdev, param in zip(means, stds, params):
print("%f (%f) with: %r" % (mean, stdev, param))
- 比较分类器的准确性(取决于最佳超参数)
- 选择最好的分类器
- 取版主的测试数据集(来自
train_test_split()
),在测试数据上使用最好的分类器
这是正确的方法还是您会建议更改某些内容(例如,单独进行交叉验证而不是在超参数化中进行)?将测试数据作为最后一步进行测试是否有意义,还是我应该更早进行以评估未知数据集的准确性?
有很多方法可以做到这一点,人们对此有强烈的看法,我并不总是相信他们完全理解他们所倡导的。
TL;DR:您的方法看起来不错,而且您提出的问题很明智。
话虽如此,这里有一些事情需要考虑:
- 为什么要进行训练测试拆分验证?
- 你为什么要做超参数调整?
- 为什么要进行交叉验证?
是的,这些技术中的每一个都擅长做一些特定的事情;但这并不一定意味着它们都应该属于同一管道。
首先,让我们回答这些问题:
Train-Test Split 对于测试分类器的推理能力很有用。换句话说,我们想知道分类器在总体上 的表现如何(不是在我们用于训练的数据上)。测试部分允许我们在不使用训练部分的情况下评估我们的分类器。
Hyperparameter-Tuning 对于评估超参数对分类器性能的影响很有用。为了使其有意义,我们必须比较两个(或更多)模型(使用不同的超参数),但最好使用相同的训练部分进行训练(以消除选择偏差)。一旦我们知道性能最好的超参数,我们会做什么?这组超参数是否总是表现最佳?不。您会看到,由于分类的随机性,一个超参数集可能在实验 A 中效果最好,然后另一组超参数可能在实验 B 中效果最好。相反,超参数调整有助于概括何时使用哪些超参数构建分类器。
交叉验证 用于消除与构建分类器相关的一些随机性。因此,机器学习管道可能会生成一个分类器,使用 1 个测试折叠的准确率为 94%,使用另一个测试折叠的准确率为 83%。这是什么意思?这可能意味着 1 折包含简单的样本。或者它可能意味着分类器,无论出于何种原因,实际上更好。你不知道,因为它是一个黑盒子。
实用,这有什么帮助?
我认为使用测试训练拆分 和 交叉验证没有什么价值。我使用交叉验证并将准确性报告为 n 倍的平均值。它已经在测试我的分类器的性能。我不明白为什么进一步划分训练数据以进行另一轮训练测试验证会有帮助。使用平均值。话虽如此,我使用在交叉验证期间创建的 n 倍模型中性能最好的模型作为我的最终模型。正如我所说,它是黑盒,所以我们无法 知道 哪个模型最好,但是,在其他条件相同的情况下,您不妨使用性能最好的模型。它实际上可能 更好。
超参数调整很有用,但进行大量调整可能需要很长时间。我建议在您的管道中添加超参数调整,但只测试 2 组超参数。因此,除了 1 之外,保持所有超参数不变。例如批量大小 = {64, 128}。 运行 这样,您就可以自信地说,“哦,这有很大的不同:64 比 128 更好用!”或“好吧,那是浪费时间。无论哪种方式都没有太大区别。”如果差异很小,请忽略该超参数并尝试另一对。这样,您将慢慢地朝着最佳方向前进,而不会浪费所有时间。
在实践中,我会说将广泛的超参数调整留给学术界并采取更务实的方法。
但是,是的,您的方法看起来不错。我认为你在思考你在做什么,这已经让你领先了一步。