为什么在线性回归中使用多个特征？

Question

线性回归定义 Y 是 X 的函数。使用此函数可以在 X 出现之前使用 X 值预测 Y（忽略异常值）。

单变量线性回归仅取决于一个变量。但更强大的形式是多元线性回归，其中不是只使用一个参数：X，而是使用多个参数。这个在X,Y平面上是无法可视化的，引入3个参数或许可以可视化，但是4,5,6个参数（维度）就不行了。

想法是使用更多参数会给出更好的预测。这是根据什么？为什么使用多个特征可以提高预测质量？凭直觉，我了解对问题的了解越多，就可以做出更准确的预测。但是为什么添加更多的特征，或者换句话说维度会增加函数的准确性？是否存在正式定义？

或者它只是反复试验 - 一个特征可能就足够了，但在测试多个特征之前无法确定。

Answer 1

形式化证明很简单。 映射 f 的性质不能表示为特征的函数。您只能得到一些近似值，并添加更多变量 always 扩展可能的近似值 space （更严格 - 永远不会减少 ).虽然在这个新 space 中找到一个好的逼近器实际上更难（因此所有已知的算法都会失败），但总是有更大的机会存在。一般来说 - 如果你可以创建一组完美的功能，例如......输出值本身 - 那么添加任何东西实际上都会降低模型的质量。但在现实生活中 - 我们作为人类 - 无法找到如此好的预测因子，因此我们盲目地抽样可以从现实中获得的东西，从现实中测量，并且作为一个简单的随机猜测 - 每一条额外的信息都可能有用。

如果您更喜欢数学解决方案，请考虑 f 作为未知特征集的函数

f(x1, ..., xm) e R

现在您可以测量一些无限 space 原始信号 r1, r2, ... 中的特征，并且对于原始信号的每个子集，都有一个到 f 的这些真实特征的映射，但是具有不同程度的正确性，所以你有 g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...) 等。你正在尝试从原始信号的一些有限子集构建函数到 R，这将近似于 f，所以更多的 r 你包括在内，你有更好的机会捕获这些元素，这将使近似 f 成为可能。不幸的是 - 您可以添加许多冗余信号，或者那些与真实特征完全不相关的信号。这可能被视为偏差方差的一个大问题。你添加的特征越多，假设你在整个可能信号的频谱中这样做（因此你实际上可以找到与 f 的性质真正相关的东西），你将引入的方差越大。另一方面 - 一小部分特征会引入高偏差误差（由于对所需信号及其与真实特征的相关性的强烈假设）。

特别是，线性回归不太适合处理高度相关的信号，因此对于这个特定的统计模型，添加新信号会很快导致模型损坏。 LR 有一个强大的潜在假设，即 f 是所有预测变量的线性模型，直到 正态分布误差，每个维度之间的方差相等 .

Answer 2

补充一下@lejlot 所说的，我想说的是，增加特征数量并不总是会增加建模正确回归模型的概率，因为训练模型有可能过度拟合。而是寻找彼此独立但仍对整体模型有贡献的特征。

我建议这个特别的 post 来了解有关线性回归的更多信息以及更多功能如何提供帮助：

http://cs229.stanford.edu/notes/cs229-notes1.pdf

为什么在线性回归中使用多个特征？

Why use multiple features in Linear Regression?

machine-learning

linear-regression