我如何理解我的程序输出的多项式系数?
How do I make sense of the polynomial coefficients my program outputs?
我正在尝试获取表示 4 个变量的表面的多项式方程:泄漏、压力、尺寸和速度。基本上我试图找到方程 Leakage=f(pressure, dimension, speed)。我设法得到多项式系数和截距,如下所示 post,但我不知道如何在多项式方程中解释它们(即:z= ao + alx + a2Y + a3XY + a4x2 + a5y2 + a6 x3 + a7x2 y + a8 x y2 + ag 等)。有人可以帮忙吗?:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
# my data
data=np.column_stack((speed, dimension3,pressure3,leakage3))
# Generate polynomial features of desired degree
d = 6
poly = PolynomialFeatures(degree=d, include_bias=False)
X = poly.fit_transform(data[:, :-1])
y = data[:,-1]
# Define and fit linear regression
clf = LinearRegression()
clf.fit(X, y)
# Check results
print(clf.coef_)
print(clf.intercept_)
[ 1.21064489e-09 2.51751918e-11 3.17543952e-12 -3.66443110e-13
-3.62188623e-14 1.13794085e-14 2.33351780e-15 8.76551176e-16
9.65867527e-16 6.69545284e-16 -1.67396381e-16 -1.57313479e-16
-8.47927583e-17 -3.38219081e-16 1.83324692e-17 -3.10419931e-16
1.43757683e-16 -2.25732234e-16 -2.37769462e-16 -1.25305377e-18
4.30862718e-18 -3.03569002e-16 6.43054057e-19 2.88496876e-15
2.13470938e-14 3.85650361e-20 4.65962202e-16 -2.18466792e-13
-2.30089604e-13 -4.53158981e-22 3.96214571e-17 6.38462456e-13
1.48896917e-12 1.52973108e-13 -1.18405974e-14 4.30024113e-15
-2.52978182e-13 5.34046635e-16 2.40414556e-12 1.77892418e-11
3.60577799e-17 3.88296991e-13 -1.82055655e-10 -1.91741331e-10
-4.76611883e-19 3.30372428e-14 5.32052044e-10 1.24080759e-09
1.27477605e-10 2.12356214e-18 1.47504991e-15 1.81132053e-10
3.25304547e-10 7.36098343e-11 1.75235266e-11 2.36581268e-18
-6.40351208e-19 4.91896560e-17 -1.01893976e-17 -3.16647219e-16
-3.52899091e-15 1.99753728e-16 -6.70331612e-15 3.37679794e-14
3.84231696e-14 -1.53920338e-15 1.15182270e-13 -1.08869747e-14
-3.29823619e-13 8.93971247e-14 2.18311227e-15 -8.17692841e-13
-4.15197656e-13 -3.45795442e-12 1.67485115e-11 -2.44352687e-11
2.13680892e-15 1.46360317e-12 1.90178331e-12 -4.17133327e-11
2.89651154e-10 -1.07175872e-09 1.32403379e-09]
9.16822354513272
解读
如果你打印poly.powers_
,你应该能够理解每个值的含义。
array([[1, 0, 0],
[0, 1, 0],
[0, 0, 1],
[2, 0, 0],
[1, 1, 0],
...
[0, 4, 2],
[0, 3, 3],
[0, 2, 4],
[0, 1, 5],
[0, 0, 6]], dtype=int64)
每一行都是一个特征,您的变量被提升到相应的幂。
例如:[2, 3, 1]
表示speed^2 * dimension^3 * pressure
。
作为 6 次多项式,对于变量的任何幂 [x, y, z]
集,此规则适用:x + y + z <= 6
当您将它们拟合到线性回归模型时,您试图找到最能描述自变量和因变量(泄漏)之间关系的每个特征的系数。
因此,您可以这样解释它们:
clf.intercept_ +
y0 * speed + # not mentioning "* dimension^0 * pressure^0" which equals 1
y1 * dimension +
y2 * pressure +
y3 * speed^2 +
y4 * speed * dimension +
... +
y79 * dimension^4 * pressure^2 +
y80 * dimension^3 * pressure^3 +
y81 * dimension^2 * pressure^4 +
y82 * dimension * pressure^5 +
y83 * pressure^6
~= leakage
预测
要利用方程中的系数并预测泄漏,您可以调用为此目的制作的 transform
和 predict
方法。
import numpy as np
x = [[1, 2, 3], [4, 5, 6]]
# the input must be a matrix of shape n_rows * 3 columns
y_pred = poly.transform(np.array(x).reshape(-1, poly.n_input_features_))
y_pred = clf.predict(y_pred)
# timeit:
# 91.5 µs ± 1.73 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
由于 numpy 的广播功能,这相当于(但比)以下函数。 IMO 它有助于了解幕后发生的事情。
import numpy as np
def custom_predict(x, clf, poly):
# any number of rows, 3 columns in our case
x = np.array(x).reshape(-1, poly.n_input_features_)
return np.array([
(clf.coef_ * np.product(np.power(row, poly.powers_), axis=1)).sum() + clf.intercept_
for row in x
])
y_pred = custom_predict([[1,2,3], [4, 5, 6]], clf, poly)
# timeit:
# 447 µs ± 3.74 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
如前所述,您的输入 x 必须具有与原始 fit_transform
相同数量的特征(列),但您可以根据需要传递任意数量的观测值(行)。
我正在尝试获取表示 4 个变量的表面的多项式方程:泄漏、压力、尺寸和速度。基本上我试图找到方程 Leakage=f(pressure, dimension, speed)。我设法得到多项式系数和截距,如下所示 post,但我不知道如何在多项式方程中解释它们(即:z= ao + alx + a2Y + a3XY + a4x2 + a5y2 + a6 x3 + a7x2 y + a8 x y2 + ag 等)。有人可以帮忙吗?:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
# my data
data=np.column_stack((speed, dimension3,pressure3,leakage3))
# Generate polynomial features of desired degree
d = 6
poly = PolynomialFeatures(degree=d, include_bias=False)
X = poly.fit_transform(data[:, :-1])
y = data[:,-1]
# Define and fit linear regression
clf = LinearRegression()
clf.fit(X, y)
# Check results
print(clf.coef_)
print(clf.intercept_)
[ 1.21064489e-09 2.51751918e-11 3.17543952e-12 -3.66443110e-13
-3.62188623e-14 1.13794085e-14 2.33351780e-15 8.76551176e-16
9.65867527e-16 6.69545284e-16 -1.67396381e-16 -1.57313479e-16
-8.47927583e-17 -3.38219081e-16 1.83324692e-17 -3.10419931e-16
1.43757683e-16 -2.25732234e-16 -2.37769462e-16 -1.25305377e-18
4.30862718e-18 -3.03569002e-16 6.43054057e-19 2.88496876e-15
2.13470938e-14 3.85650361e-20 4.65962202e-16 -2.18466792e-13
-2.30089604e-13 -4.53158981e-22 3.96214571e-17 6.38462456e-13
1.48896917e-12 1.52973108e-13 -1.18405974e-14 4.30024113e-15
-2.52978182e-13 5.34046635e-16 2.40414556e-12 1.77892418e-11
3.60577799e-17 3.88296991e-13 -1.82055655e-10 -1.91741331e-10
-4.76611883e-19 3.30372428e-14 5.32052044e-10 1.24080759e-09
1.27477605e-10 2.12356214e-18 1.47504991e-15 1.81132053e-10
3.25304547e-10 7.36098343e-11 1.75235266e-11 2.36581268e-18
-6.40351208e-19 4.91896560e-17 -1.01893976e-17 -3.16647219e-16
-3.52899091e-15 1.99753728e-16 -6.70331612e-15 3.37679794e-14
3.84231696e-14 -1.53920338e-15 1.15182270e-13 -1.08869747e-14
-3.29823619e-13 8.93971247e-14 2.18311227e-15 -8.17692841e-13
-4.15197656e-13 -3.45795442e-12 1.67485115e-11 -2.44352687e-11
2.13680892e-15 1.46360317e-12 1.90178331e-12 -4.17133327e-11
2.89651154e-10 -1.07175872e-09 1.32403379e-09]
9.16822354513272
解读
如果你打印poly.powers_
,你应该能够理解每个值的含义。
array([[1, 0, 0],
[0, 1, 0],
[0, 0, 1],
[2, 0, 0],
[1, 1, 0],
...
[0, 4, 2],
[0, 3, 3],
[0, 2, 4],
[0, 1, 5],
[0, 0, 6]], dtype=int64)
每一行都是一个特征,您的变量被提升到相应的幂。
例如:[2, 3, 1]
表示speed^2 * dimension^3 * pressure
。
作为 6 次多项式,对于变量的任何幂 [x, y, z]
集,此规则适用:x + y + z <= 6
当您将它们拟合到线性回归模型时,您试图找到最能描述自变量和因变量(泄漏)之间关系的每个特征的系数。
因此,您可以这样解释它们:
clf.intercept_ +
y0 * speed + # not mentioning "* dimension^0 * pressure^0" which equals 1
y1 * dimension +
y2 * pressure +
y3 * speed^2 +
y4 * speed * dimension +
... +
y79 * dimension^4 * pressure^2 +
y80 * dimension^3 * pressure^3 +
y81 * dimension^2 * pressure^4 +
y82 * dimension * pressure^5 +
y83 * pressure^6
~= leakage
预测
要利用方程中的系数并预测泄漏,您可以调用为此目的制作的 transform
和 predict
方法。
import numpy as np
x = [[1, 2, 3], [4, 5, 6]]
# the input must be a matrix of shape n_rows * 3 columns
y_pred = poly.transform(np.array(x).reshape(-1, poly.n_input_features_))
y_pred = clf.predict(y_pred)
# timeit:
# 91.5 µs ± 1.73 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
由于 numpy 的广播功能,这相当于(但比)以下函数。 IMO 它有助于了解幕后发生的事情。
import numpy as np
def custom_predict(x, clf, poly):
# any number of rows, 3 columns in our case
x = np.array(x).reshape(-1, poly.n_input_features_)
return np.array([
(clf.coef_ * np.product(np.power(row, poly.powers_), axis=1)).sum() + clf.intercept_
for row in x
])
y_pred = custom_predict([[1,2,3], [4, 5, 6]], clf, poly)
# timeit:
# 447 µs ± 3.74 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
如前所述,您的输入 x 必须具有与原始 fit_transform
相同数量的特征(列),但您可以根据需要传递任意数量的观测值(行)。