有没有更快的方法来获取基于线性回归模型的值并将其附加到 DataFrame 中的新列？

Question

我在下面创建了这段代码以在我的数据框中创建一个新列来比较实际值和回归值：

b = dfSemoga.loc[:, ['DoB','AA','logtime']]
y = dfSemoga.loc[:,'logCO2'].values.reshape(len(dfSemoga)+1,1)
lr = LinearRegression().fit(b,y)

z = lr.coef_[0,0]
j = lr.coef_[0,1]
k = lr.coef_[0,2]
c = lr.intercept_[0]

for i in range (0,len(dfSemoga)):
    dfSemoga.loc[i,'EF CO2 Predict'] = (c + dfSemoga.loc[i,'DoB']*z  + 
                                        dfSemoga.loc[i,'logtime']*k + dfSemoga.loc[i, 'AA']*j)

所以，我基本上用三个变量回归了一个列：1) AA， 2) logtime，和 3) DoB。但是在这段代码中，要在名为 dfSemoga['EF CO2 Predict'] 的新列中获取回归值我手动分配系数，如 for 循环所示。

有没有什么花哨的单行代码可以让我的工作更有效率？

Answer 1

没有样本数据我无法确认，但你应该可以做到

dfSemoga["EF CO2 Predict"] = c + (z * dfSemoga["DoB"]) + (k * dfSemoga["logtime"]) + (j * dfSemoga["AA"])

演示：

In [4]: df
Out[4]:
   a  b
0  0  0
1  0  8
2  7  6
3  3  1
4  3  8
5  6  6
6  4  8
7  2  7
8  3  8
9  8  1

In [5]: df["c"] = 3 + 0.5 * df["a"] - 6 * df["b"]

In [6]: df
Out[6]:
   a  b     c
0  0  0   3.0
1  0  8 -45.0
2  7  6 -29.5
3  3  1  -1.5
4  3  8 -43.5
5  6  6 -30.0
6  4  8 -43.0
7  2  7 -38.0
8  3  8 -43.5
9  8  1   1.0

有没有更快的方法来获取基于线性回归模型的值并将其附加到 DataFrame 中的新列？

Is there faster way to get values based on the linear regression model and append it to a new column in a DataFrame?

python

regression

pandas

scikit-learn