处理与输出预测不相关的特征?

Handling features not correlated with output prediction?

我对多个特征进行回归分析。特征数量为 20-23。现在,我检查每个特征与输出变量的相关性。一些特征显示相关系数接近 1 或 -1(高度相关)。有些特征显示相关系数接近 0。我的问题是:如果相关系数接近 0,我是否必须删除该特征?或者我可以保留它,唯一的问题是此功能不会对回归模型产生明显影响或对其产生微弱影响。还是必须删除此类功能?

简而言之

  • 特征和输出之间的高(绝对)相关性意味着该特征作为预测因子应该是有价值的
  • 特征和输出之间缺乏相关性意味着没有

更多详情

成对相关性仅向您显示一件事如何影响另一件事,完全没有说明该特征与其他特征的关联性有多好。因此,如果您的模型不是微不足道的,那么 您不应该删除变量,因为它们与输出不相关 )。我会给你一个例子来告诉你为什么。

考虑以下示例,我们有 2 个特征(X,Y)和一个输出值(Z,假设红色为 1,黑色为 0)

X   Y   Z
1   1   1
1   2   0
1   3   0
2   1   0
2   2   1
2   3   0
3   1   0
3   2   0
3   3   1

让我们计算相关性:

  • 相关系数(X, Z) = 0
  • 相关系数(Y, Z) = 0

所以...我们应该放弃所有值?其中之一?如果我们删除任何变量——我们的问题将变得完全无法建模! "magic"在于数据中其实存在"hidden"关系

|X-Y|
0
1
2
1
0
1
2
1
0

  • 相关(|X-Y|, Z)= -0.8528028654

现在这是一个很好的预测器!

你其实可以通过

得到一个完美的回归器(插值器)
Z = 1 - sign(|X-Y|)