特征编码顺序、特征选择和归一化

Order of Feature Encoding, Feature Selection and normalization

我正在尝试使用神经网络进行二进制和多class class化。我的数据集有二进制、数字和名义变量。训练集上的标称值有很多值,所以当我执行 OneHotEncoding 时,维度从 42 移动到 122。还有一些值只出现在训练集上,因为数据集是这样提出的。

所以我使用了以下顺序:

  1. 单热编码
  2. 规范化
  3. 特征选择或 PCA

但我发现有些人,他们也使用神经网络,甚至在执行 One-hot Encoding 之前就进行了特征选择。这对我来说很奇怪,因为神经网络只处理数字数据。因此,运行 一种可能 删除 分类值的特征选择算法可能会对神经网络造成伤害,尤其是一个热编码会对整个模型的维度产生影响。

但我不知道,所以我不得不问:这里的正确顺序是什么?这个按照我用的顺序,但是我更感兴趣的是one-hot编码和特征选择部分

qu: 这里的正确顺序是什么? 此顺序可能因您的应用程序和数据而异。

例如,在您的问题中,为什么在 oneHotEncoding 之前使用特征选择,它适用于您声明的标称数据: "The nominal values on training set has a lot of values, so when I perform OneHotEncoding the dimension moves from 42 to 122" 在此应用程序中,在 oneHotEncoding 之前进行特征选择很有用。

  • "So running a feature selection algorithm that might delete the categorical values could be harming to the neural network, especially that one hot encoding has an impact on the dimensional of the whole model" -> 您以这种方式对神经网络的解释根本不正确,因为一个热编码存在无用的分类值可能会使神经网络的调整变得困难(或导致神经网络调整没有收敛)或计算复杂性。