使用高斯 NB 的多类分类,给出相同的准确度、精确度和 f1 分数输出
Multiclass classification using Gaussian NB, gives same output for accuracy, precision and f1 score
我是 Python 和分类算法的新手。我正在使用 GaussianNB 对 NSL KDD 数据集进行多类分类,最后,我需要获取精度、召回率、f1 分数的值。
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix, zero_one_loss
from sklearn.metrics import classification_report
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
y_pred = gnb.fit(train_x, train_Y).predict(test_x)
results_nm = confusion_matrix(test_Y,y_pred)
#print(results_nm)
print(classification_report(test_Y,y_pred))
print(accuracy_score(test_Y,y_pred))
print("Precision Score : ",precision_score(test_Y,y_pred,
pos_label='positive',
average='micro'))
print("Recall Score : ",recall_score(test_Y,y_pred,
pos_label='positive',
average='micro'))
print(f1_score(test_Y,y_pred,average='micro'))
我按照类似问题中的说明进行操作
.
输出如下,但我得到的所有三个输出都相同。这可能是什么原因?
这可能会发生,正如您在混淆矩阵中看到的那样,所有 3 个指标的微观平均值实际上是相同的。
在微平均方法中,您将系统针对不同集合的个体真阳性、假阳性和假阴性相加并应用它们来获得统计数据。例如,对于一组数据,系统的
True positive (TP1) = 12
False positive (FP1) = 5
False negative (FN1) = 10
那么精确率 (P1) 和召回率 (R1) 将为 (12/(12+5)) 和 (12/(12+10))
如果 FP1 == FN1,则两者相同。
并且对于另一组数据,系统的
True positive (TP2) = 50
False positive (FP2) = 7
False negative (FN2) = 7
那么精确率 (P2) 和召回率 (R2) 将相同。
现在,使用微平均法的系统的平均查准率和查全率是
微平均 F-Score 就是这两个数字的调和平均值。
因此,对于 FP 和 FN 的特定值,所有这些指标可能都相同。从等式中,我们可以说,如果 FP1 + FP2 == FN1 + FN2,那么微平均精度和召回率将相同。
您可以通过多种方式将值放入等式中,以便所有 3 个指标都给出相同的值,因此您可以尝试宏观平均或加权平均。
我是 Python 和分类算法的新手。我正在使用 GaussianNB 对 NSL KDD 数据集进行多类分类,最后,我需要获取精度、召回率、f1 分数的值。
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix, zero_one_loss
from sklearn.metrics import classification_report
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
y_pred = gnb.fit(train_x, train_Y).predict(test_x)
results_nm = confusion_matrix(test_Y,y_pred)
#print(results_nm)
print(classification_report(test_Y,y_pred))
print(accuracy_score(test_Y,y_pred))
print("Precision Score : ",precision_score(test_Y,y_pred,
pos_label='positive',
average='micro'))
print("Recall Score : ",recall_score(test_Y,y_pred,
pos_label='positive',
average='micro'))
print(f1_score(test_Y,y_pred,average='micro'))
我按照类似问题中的说明进行操作
输出如下,但我得到的所有三个输出都相同。这可能是什么原因?
这可能会发生,正如您在混淆矩阵中看到的那样,所有 3 个指标的微观平均值实际上是相同的。
在微平均方法中,您将系统针对不同集合的个体真阳性、假阳性和假阴性相加并应用它们来获得统计数据。例如,对于一组数据,系统的
True positive (TP1) = 12
False positive (FP1) = 5
False negative (FN1) = 10
那么精确率 (P1) 和召回率 (R1) 将为 (12/(12+5)) 和 (12/(12+10))
如果 FP1 == FN1,则两者相同。
并且对于另一组数据,系统的
True positive (TP2) = 50
False positive (FP2) = 7
False negative (FN2) = 7
那么精确率 (P2) 和召回率 (R2) 将相同。
现在,使用微平均法的系统的平均查准率和查全率是
微平均 F-Score 就是这两个数字的调和平均值。
因此,对于 FP 和 FN 的特定值,所有这些指标可能都相同。从等式中,我们可以说,如果 FP1 + FP2 == FN1 + FN2,那么微平均精度和召回率将相同。
您可以通过多种方式将值放入等式中,以便所有 3 个指标都给出相同的值,因此您可以尝试宏观平均或加权平均。