为什么在线性回归中使用多个特征?
Why use multiple features in Linear Regression?
线性回归定义 Y 是 X 的函数。使用此函数可以在 X 出现之前使用 X 值预测 Y(忽略异常值)。
单变量线性回归仅取决于一个变量。但更强大的形式是多元线性回归,其中不是只使用一个参数:X,而是使用多个参数。这个在X,Y平面上是无法可视化的,引入3个参数或许可以可视化,但是4,5,6个参数(维度)就不行了。
想法是使用更多参数会给出更好的预测。这是根据什么?为什么使用多个特征可以提高预测质量?凭直觉,我了解对问题的了解越多,就可以做出更准确的预测。但是为什么添加更多的特征,或者换句话说维度会增加函数的准确性?是否存在正式定义?
或者它只是反复试验 - 一个特征可能就足够了,但在测试多个特征之前无法确定。
形式化证明很简单。 映射 f 的性质不能表示为特征的函数。您只能得到一些近似值,并添加更多变量 always 扩展可能的近似值 space (更严格 - 永远不会减少 ).虽然在这个新 space 中找到一个好的逼近器实际上 更难 (因此所有已知的算法都会失败),但总是有更大的机会 存在。一般来说 - 如果你可以创建一组完美的功能,例如......输出值本身 - 那么添加任何东西实际上都会降低模型的质量。但在现实生活中 - 我们作为人类 - 无法找到如此好的预测因子,因此我们盲目地抽样可以从现实中获得的东西,从现实中测量,并且作为一个简单的随机猜测 - 每一条额外的信息都可能有用。
如果您更喜欢数学解决方案,请考虑 f
作为未知特征集的函数
f(x1, ..., xm) e R
现在您可以测量一些无限 space 原始信号 r1, r2, ...
中的特征,并且对于原始信号的每个子集,都有一个到 f
的这些真实特征的映射,但是具有不同程度的正确性,所以你有 g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...)
等。你正在尝试从原始信号的一些有限子集构建函数到 R
,这将近似于 f
,所以更多的 r
你包括在内,你有更好的机会捕获这些元素,这将使近似 f
成为可能。不幸的是 - 您可以添加许多冗余信号,或者那些与真实特征完全不相关的信号。这可能被视为偏差方差的一个大问题。你添加的特征越多,假设你在整个可能信号的频谱中这样做(因此你实际上可以找到与 f
的性质真正相关的东西),你将引入的方差越大。另一方面 - 一小部分特征会引入高偏差误差(由于对所需信号及其与真实特征的相关性的强烈假设)。
特别是,线性回归不太适合处理高度相关的信号,因此对于这个特定的统计模型,添加新信号会很快导致模型损坏。 LR 有一个强大的潜在假设,即 f
是所有预测变量的线性模型,直到 正态分布误差,每个维度之间的方差相等 .
补充一下@lejlot 所说的,我想说的是,增加特征数量并不总是会增加建模正确回归模型的概率,因为训练模型有可能过度拟合。而是寻找彼此独立但仍对整体模型有贡献的特征。
我建议这个特别的 post 来了解有关线性回归的更多信息以及更多功能如何提供帮助:
线性回归定义 Y 是 X 的函数。使用此函数可以在 X 出现之前使用 X 值预测 Y(忽略异常值)。
单变量线性回归仅取决于一个变量。但更强大的形式是多元线性回归,其中不是只使用一个参数:X,而是使用多个参数。这个在X,Y平面上是无法可视化的,引入3个参数或许可以可视化,但是4,5,6个参数(维度)就不行了。
想法是使用更多参数会给出更好的预测。这是根据什么?为什么使用多个特征可以提高预测质量?凭直觉,我了解对问题的了解越多,就可以做出更准确的预测。但是为什么添加更多的特征,或者换句话说维度会增加函数的准确性?是否存在正式定义?
或者它只是反复试验 - 一个特征可能就足够了,但在测试多个特征之前无法确定。
形式化证明很简单。 映射 f 的性质不能表示为特征的函数。您只能得到一些近似值,并添加更多变量 always 扩展可能的近似值 space (更严格 - 永远不会减少 ).虽然在这个新 space 中找到一个好的逼近器实际上 更难 (因此所有已知的算法都会失败),但总是有更大的机会 存在。一般来说 - 如果你可以创建一组完美的功能,例如......输出值本身 - 那么添加任何东西实际上都会降低模型的质量。但在现实生活中 - 我们作为人类 - 无法找到如此好的预测因子,因此我们盲目地抽样可以从现实中获得的东西,从现实中测量,并且作为一个简单的随机猜测 - 每一条额外的信息都可能有用。
如果您更喜欢数学解决方案,请考虑 f
作为未知特征集的函数
f(x1, ..., xm) e R
现在您可以测量一些无限 space 原始信号 r1, r2, ...
中的特征,并且对于原始信号的每个子集,都有一个到 f
的这些真实特征的映射,但是具有不同程度的正确性,所以你有 g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...)
等。你正在尝试从原始信号的一些有限子集构建函数到 R
,这将近似于 f
,所以更多的 r
你包括在内,你有更好的机会捕获这些元素,这将使近似 f
成为可能。不幸的是 - 您可以添加许多冗余信号,或者那些与真实特征完全不相关的信号。这可能被视为偏差方差的一个大问题。你添加的特征越多,假设你在整个可能信号的频谱中这样做(因此你实际上可以找到与 f
的性质真正相关的东西),你将引入的方差越大。另一方面 - 一小部分特征会引入高偏差误差(由于对所需信号及其与真实特征的相关性的强烈假设)。
特别是,线性回归不太适合处理高度相关的信号,因此对于这个特定的统计模型,添加新信号会很快导致模型损坏。 LR 有一个强大的潜在假设,即 f
是所有预测变量的线性模型,直到 正态分布误差,每个维度之间的方差相等 .
补充一下@lejlot 所说的,我想说的是,增加特征数量并不总是会增加建模正确回归模型的概率,因为训练模型有可能过度拟合。而是寻找彼此独立但仍对整体模型有贡献的特征。
我建议这个特别的 post 来了解有关线性回归的更多信息以及更多功能如何提供帮助: