Pandas Python 中的管道

Pipelines in Pandas Python

我正在学习 Python 的数据分析,但有些事情我无法弄清楚。 我知道存在三种开发模型的选项:线性、线性倍数和多项式。但是,然后我进入了一个新概念,叫做 'pipelines'。我在这里放了一些代码:

Input=[('scale',StandardScaler()), ('polynomial', PolynomialFeatures(include_bias=False)), ('model',LinearRegression())]

归一化没问题,但是,我不明白为什么我要使用线性模型时引入 PolynomialFeature 作为参数???这对我来说没有意义。拜托,有人可以向我澄清一下吗?

这是一个常见的误解。线性模型指的是 参数,而不是特征 。假设您有特征 x 和值 y。您的线性模型将是

y = a_0 + a_1 * x

您可以通过算术运算生成额外的特征,例如x**2。现在你的模型变成了

y = a_0 + a_1 * x + a_2 * x**2

它仍然是一个线性模型,因为a_0a_1a_2是线性的。它只是具有多项式特征。