pandas statsmodels 中的 predict(),添加自变量
predict() in pandas statsmodels, adding independent variables
数据:https://courses.edx.org/c4x/MITx/15.071x_2/asset/climate_change.csv
我正在使用 pandas:
构建多元线性回归模型
import pandas as pd
import statsmodels.api as sm
climate = pd.read_csv("climate_change.csv")
climate_train = climate.query('Year <= 2006')
climate_test = climate.query('Year > 2006')
y = climate_train['Temp']
x = climate_train[['MEI', 'N2O', 'TSI', 'Aerosols']]
x = sm.add_constant(x)
model2 = sm.OLS(y, x).fit()
model2.summary()
我想在我的测试数据集上测试它:
model2.predict(climate_test)
但是我得到以下错误:
ValueError: shapes (24,11) and (5,) not aligned: 11 (dim 1) != 5 (dim 0)
来自 this question 我怀疑这可能与我没有向我的测试数据集添加常量有关,但是
model2.predict(sm.add_constant(climate_test))
也不行。如果我明确列出自变量,它会起作用:
model2.predict(sm.add_constant(climate_test[['MEI', 'N2O', 'TSI', 'Aerosols']]))
但是由于 model2 已经 "knows" 这些变量,我看不出为什么我应该在方法调用中重复它们。
如何在不显式调用自变量的情况下预测()?
我认为没有办法完全自动完成。
如果您尝试节省输入,请将 "x-columns" 存储在一个变量中供以后使用:xvars = ['MEI', 'N2O', 'TSI', 'Aerosols']
并在代码的早期和后期使用它来节省输入。
数据:https://courses.edx.org/c4x/MITx/15.071x_2/asset/climate_change.csv
我正在使用 pandas:
构建多元线性回归模型import pandas as pd
import statsmodels.api as sm
climate = pd.read_csv("climate_change.csv")
climate_train = climate.query('Year <= 2006')
climate_test = climate.query('Year > 2006')
y = climate_train['Temp']
x = climate_train[['MEI', 'N2O', 'TSI', 'Aerosols']]
x = sm.add_constant(x)
model2 = sm.OLS(y, x).fit()
model2.summary()
我想在我的测试数据集上测试它:
model2.predict(climate_test)
但是我得到以下错误:
ValueError: shapes (24,11) and (5,) not aligned: 11 (dim 1) != 5 (dim 0)
来自 this question 我怀疑这可能与我没有向我的测试数据集添加常量有关,但是
model2.predict(sm.add_constant(climate_test))
也不行。如果我明确列出自变量,它会起作用:
model2.predict(sm.add_constant(climate_test[['MEI', 'N2O', 'TSI', 'Aerosols']]))
但是由于 model2 已经 "knows" 这些变量,我看不出为什么我应该在方法调用中重复它们。
如何在不显式调用自变量的情况下预测()?
我认为没有办法完全自动完成。
如果您尝试节省输入,请将 "x-columns" 存储在一个变量中供以后使用:xvars = ['MEI', 'N2O', 'TSI', 'Aerosols']
并在代码的早期和后期使用它来节省输入。