Python 让我的逻辑回归测试准确度更接近我的训练准确度
Making my logistic regression testing accuracy closer to my training accuracy with Python
我有一个包含 656 个因素的篮球统计数据集。我正在使用逻辑回归分类器通过从团队 2 的统计数据中减去团队 1 的统计数据来预测赢家和输家(团队 1 获胜或团队 2 获胜)。除了标准化之外,我如何提高测试集的准确性以使其更接近训练集的准确性或只是提高总体准确性?
我认为规范化是一种可能的解决方案,但由于我正在计算统计数据的差异,因此大多数值都在同一范围内
代码:
X = final_data_array[:,:656]
Y = final_data_array[:,656]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y)
logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)
print(logistic.score(X_test, Y_test))
print(logistic.score(X_train, Y_train))
0.7818791946308725
0.9069506726457399
您可以尝试对数据集进行一些特征工程,除此之外规范化数据集并检查准确性。我还建议您尝试其他分类算法,如 xgbclassifier、随机森林分类器等
我有一个包含 656 个因素的篮球统计数据集。我正在使用逻辑回归分类器通过从团队 2 的统计数据中减去团队 1 的统计数据来预测赢家和输家(团队 1 获胜或团队 2 获胜)。除了标准化之外,我如何提高测试集的准确性以使其更接近训练集的准确性或只是提高总体准确性?
我认为规范化是一种可能的解决方案,但由于我正在计算统计数据的差异,因此大多数值都在同一范围内
代码:
X = final_data_array[:,:656]
Y = final_data_array[:,656]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y)
logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)
print(logistic.score(X_test, Y_test))
print(logistic.score(X_train, Y_train))
0.7818791946308725
0.9069506726457399
您可以尝试对数据集进行一些特征工程,除此之外规范化数据集并检查准确性。我还建议您尝试其他分类算法,如 xgbclassifier、随机森林分类器等