尽管我在逻辑回归中使用 cross_val_score 的交叉验证，但为什么我的数据会过度拟合？

Question

我正在使用取自 https://www.kaggle.com/blastchar/telco-customer-churn 的关于电信客户流失的“WA_Fn-UseC_-Telco-Customer-Churn.csv”文件，以便使用 scikit-learn 的 LogisticRegression() 预测流失。

import pandas as pd
    from sklearn.linear_model import LogisticRegression
    from sklearn.model_selection import cross_val_score
    data=pd.read_csv(file)

    #get rid of ID's
    data=data.iloc[:,1:]

    #turn categorical data to dummies
    data2=pd.get_dummies(data,columns=['gender', 'Partner', 'Dependents',
       'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity',
       'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV',
       'StreamingMovies', 'Contract','PaperlessBilling', 'PaymentMethod'])

    #Some cleaning and adjustment
    data2["TotalCharges"].replace('[^0-9.]',np.nan,inplace=True,regex=True)
    data2["Churn"].replace(('Yes','No'),(1,0),inplace=True)
    data2=data2.dropna()

    #assign features and target 
    X = data2[data2.columns[:-1]] # Features
    y = data2.Churn # Target variable

    scores=cross_val_score(LogisticRegression(), X, y, cv=10) 
    print(scores)

然而这只打印出 1 的分数，我也尝试使用 Shuffle 进行混洗 split.Why 我的数据过拟合了，还是有其他问题？

Answer 1

在数据清理中，您忘记从训练数据中删除目标列。

获得假人后，'Churn' 不再是最后一列，data2.columns[:-1] 将其留在训练集中，您的模型最终会从中学习。

尽管我在逻辑回归中使用 cross_val_score 的交叉验证，但为什么我的数据会过度拟合？

Why my data is overfitting despite my usage of cross validation with cross_val_score in logistic regression?

python

scikit-learn

cross-validation