为什么我们使用相关系数来进行特征选择?
Why do we use correlation coefficient for feature selection?
我正在学习特征选择。
我发现 this 并看到许多内核检查相关系数矩阵。
(在上面link中,他们介绍了3种特征选择方法,第一种是过滤方法,包括相关系数和卡方检验。)
为什么我们可以使用相关系数来进行特征选择?
我认为它只能表示2个变量之间的线性关系,不能表示2个或多个变量组合的效果或非线性关系。
所以我想知道相关系数是否适合用于特征选择。
为什么以及如何将其用于特征选择?
你是完全正确的 - 相关性是一种朴素的、近乎原始的特征选择方法。因此它有时会工作(因为数据有时确实遵循线性组合冗余)并且会在许多更复杂的任务中惨败。这里没有 "golden" 答案。基于相关性的特征选择就像用于分类的逻辑回归 - 最容易尝试的方法,但不应期望解决任何问题。
我正在学习特征选择。 我发现 this 并看到许多内核检查相关系数矩阵。 (在上面link中,他们介绍了3种特征选择方法,第一种是过滤方法,包括相关系数和卡方检验。)
为什么我们可以使用相关系数来进行特征选择?
我认为它只能表示2个变量之间的线性关系,不能表示2个或多个变量组合的效果或非线性关系。
所以我想知道相关系数是否适合用于特征选择。 为什么以及如何将其用于特征选择?
你是完全正确的 - 相关性是一种朴素的、近乎原始的特征选择方法。因此它有时会工作(因为数据有时确实遵循线性组合冗余)并且会在许多更复杂的任务中惨败。这里没有 "golden" 答案。基于相关性的特征选择就像用于分类的逻辑回归 - 最容易尝试的方法,但不应期望解决任何问题。