Sklearn:如何获得训练数据分类的均方误差
Sklearn: how to get mean squared error on classifying training data
我在 Python 中第一次尝试使用 sklearn 解决一些分类问题,并且想知道单独计算分类器(如 SVM)误差的最佳方法是什么关于训练数据。
我计算accuracy和rmse的示例代码如下:
svc = svm.SVC(kernel='rbf', C=C, decision_function_shape='ovr').fit(X_train, y_train.ravel())
prediction = svc.predict(X_test)
svm_in_accuracy.append(svc.score(X_train,y_train))
svm_out_rmse.append(sqrt(mean_squared_error(prediction, np.array(list(y_test)))))
svm_out_accuracy.append((np.array(list(y_test)) == prediction).sum()/(np.array(list(y_test)) == prediction).size)
我从 'sklearn.metrics import mean_squared_error' 了解到,我几乎可以通过 MSE 进行样本外比较。我可以在 sklearn 中做些什么来给我一个错误指标,说明我的 well/not 我的模型如何在训练数据上错误分类?我问这个是因为我知道我的数据不是完全线性可分的(这意味着分类器会对某些项目进行错误分类),而且我想知道获得错误指标的最佳方法。如有任何帮助,我们将不胜感激!
要评估您的分类器,您可以使用以下指标:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
混淆矩阵将预测标签作为列标题,将真实标签作为行标签。混淆矩阵的主对角线显示正确分配标签的数量。任何 off-diagonal 元素都包含错误分配标签的数量。从混淆矩阵中,您还可以计算准确性、精确度和召回率。分类报告和混淆矩阵都易于使用 - 您将测试和预测标签传递给函数:
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
[[1047 5]
[ 0 448]]
precision recall f1-score support
0.0 1.00 1.00 1.00 1052
1.0 0.99 1.00 0.99 448
avg / total 1.00 1.00 1.00 1500
其他度量函数计算并绘制接受者操作特征 (ROC) 和 ROC 的曲线下面积 (AUC)。您可以在此处阅读有关 ROC 的信息:
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html
http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html
我在 Python 中第一次尝试使用 sklearn 解决一些分类问题,并且想知道单独计算分类器(如 SVM)误差的最佳方法是什么关于训练数据。
我计算accuracy和rmse的示例代码如下:
svc = svm.SVC(kernel='rbf', C=C, decision_function_shape='ovr').fit(X_train, y_train.ravel())
prediction = svc.predict(X_test)
svm_in_accuracy.append(svc.score(X_train,y_train))
svm_out_rmse.append(sqrt(mean_squared_error(prediction, np.array(list(y_test)))))
svm_out_accuracy.append((np.array(list(y_test)) == prediction).sum()/(np.array(list(y_test)) == prediction).size)
我从 'sklearn.metrics import mean_squared_error' 了解到,我几乎可以通过 MSE 进行样本外比较。我可以在 sklearn 中做些什么来给我一个错误指标,说明我的 well/not 我的模型如何在训练数据上错误分类?我问这个是因为我知道我的数据不是完全线性可分的(这意味着分类器会对某些项目进行错误分类),而且我想知道获得错误指标的最佳方法。如有任何帮助,我们将不胜感激!
要评估您的分类器,您可以使用以下指标:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
混淆矩阵将预测标签作为列标题,将真实标签作为行标签。混淆矩阵的主对角线显示正确分配标签的数量。任何 off-diagonal 元素都包含错误分配标签的数量。从混淆矩阵中,您还可以计算准确性、精确度和召回率。分类报告和混淆矩阵都易于使用 - 您将测试和预测标签传递给函数:
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
[[1047 5]
[ 0 448]]
precision recall f1-score support
0.0 1.00 1.00 1.00 1052
1.0 0.99 1.00 0.99 448
avg / total 1.00 1.00 1.00 1500
其他度量函数计算并绘制接受者操作特征 (ROC) 和 ROC 的曲线下面积 (AUC)。您可以在此处阅读有关 ROC 的信息:
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html
http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html