如何使用 scikit learn 确保测试集和训练集具有相同的特征?
How to ensure that both test and train sets have the same features using scikit learn?
我正在尝试预测重新出现的票证的看不见的数据?我有很多分类变量。这些变量可以相同或重复。我如何确保功能相同?这些功能可能会根据传入量而有所不同?
y=predict_pi.P_I
X=predict_pi.drop('P_I',1)
X=pd.get_dummies(X)
print(X)
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)
logReg=LogisticRegression()
logReg.fit(X_train,y_train)
pred_pi=logReg.predict(X_test)
print(pred_pi)
print(accuracy_score(y_test,pred_pi))
test=pd.get_dummies(test)
print(test)
pred_test=logReg.predict(test)
I get the error: ValueError: X has 159 features per sample; expecting 161
这两列是具有分类值的列,特征依赖于它们。功能可能会增加或减少。
AUDITOR REASON_CODE
任何建议都会有所帮助。
训练和测试数据集中的行数和列数如下。
train - (599939, 9) test - (130314, 8)
训练数据为 6 个月,测试数据为上个月。
问候,
仁.
您可以在开始回归之前将这些列添加到测试和训练中,并将它们的值指定为 0
:
extra_cols_train = [i for i in list(test) if i not in list(X)]
extra_cols_test = [i for i in list(X) if i not in list(test)]
X = X.reindex(columns=X.columns.tolist() + extra_cols_train)
X[extra_cols_train] = 0
test = test.reindex(columns=test.columns.tolist() + extra_cols_test)
test[extra_cols_test] = 0
我正在尝试预测重新出现的票证的看不见的数据?我有很多分类变量。这些变量可以相同或重复。我如何确保功能相同?这些功能可能会根据传入量而有所不同?
y=predict_pi.P_I
X=predict_pi.drop('P_I',1)
X=pd.get_dummies(X)
print(X)
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)
logReg=LogisticRegression()
logReg.fit(X_train,y_train)
pred_pi=logReg.predict(X_test)
print(pred_pi)
print(accuracy_score(y_test,pred_pi))
test=pd.get_dummies(test)
print(test)
pred_test=logReg.predict(test)
I get the error: ValueError: X has 159 features per sample; expecting 161
这两列是具有分类值的列,特征依赖于它们。功能可能会增加或减少。
AUDITOR REASON_CODE
任何建议都会有所帮助。
训练和测试数据集中的行数和列数如下。
train - (599939, 9) test - (130314, 8)
训练数据为 6 个月,测试数据为上个月。 问候, 仁.
您可以在开始回归之前将这些列添加到测试和训练中,并将它们的值指定为 0
:
extra_cols_train = [i for i in list(test) if i not in list(X)]
extra_cols_test = [i for i in list(X) if i not in list(test)]
X = X.reindex(columns=X.columns.tolist() + extra_cols_train)
X[extra_cols_train] = 0
test = test.reindex(columns=test.columns.tolist() + extra_cols_test)
test[extra_cols_test] = 0