在机器学习中，编码非分层分类特征的最佳方法是什么？

Question

对于顺序无关紧要的字符串功能，哪个更好用 dummies 或 oneHotEncoder？

例如，在这个 pandas 数据框上：

df_with_cat = pd.DataFrame({'A': ['ios', 'android', 'web', 'NaN', 'ios','ios', 'NaN', 'android'], 'B' : [4, 4, 'NaN', 2, 'NaN', 3, 3, 'NaN']})

df_with_cat.head()

    A        B
---------------
0   ios      4
1   android  4
2   web      NaN
3   NaN      2
4   ios      NaN
5   ios      3
6   NaN      3
7   android  NaN

我知道现在为了处理它们（估算缺失值等）我必须对它们进行编码，如下所示：

from sklearn.preprocessing import LabelEncoder

df_with_cat_orig = df_with_cat.copy()
la_encoder = LabelEncoder()
df_with_cat['A'] = la_encoder.fit_transform(df_with_cat.A)

输出：

df_with_cat.head(10)

    A   B
-----------
0   2   4
1   1   4
2   3   NaN
3   0   2
4   2   NaN
5   2   3
6   0   3
7   1   NaN

但是现在好像有一些顺序0-3其实不是这样的...'ios' ->2不一定大于'android' ->1

Answer 1

分类特征不同于数值特征，分类特征是一组离散值，而数值特征则形成连续序列。例如对于特征 "animal" 如果 1 -> 猫，和 2 -> 狗，你不能有 1.5，你要么是 1 要么是 2。在这个设置中狗不一定比猫大 - 那个其中两个仅仅是 "real" 特征的编码。

另一方面，对于特征 "price"，您有很大范围的可能值，并且对于哪些值大于其他值有明确的定义。

在处理分类特征方面，您完全正确 - 我们对它们进行了编码。例如 sklearn.preprocessing 有一个 OrdinalEncoder，它只是将分类特征（主要是 "male"、"female" 等字符串）转换为整数。

现在我不太熟悉 sklearn 以及它采用的编码类型，但我觉得我应该讨论更多 "advanced" 编码分类特征的方法。根据您使用的机器学习模型，这些可能适用也可能不适用。我个人主要将这些与神经网络一起使用。

比较简单的是one-hot-encoding，类似于你默认将每个类别编码为一个整数。除了这次是为了摆脱模型将一个类别视为大于另一个类别的问题，它使用了一个由 1 和 0 组成的数组。即 "cat" -> 0 -> [1, 0, 0], "dog" -> 1-> [0, 1, 0], "bird" -> 2 -> [0, 0, 1]。本质上，每个类别都被编码为一个整数索引，您的结果是一个全零数组，除了该索引处的一个。

另一种编码方式是使用嵌入。它与单热编码非常相似，因为您将整数索引（对于类别）转换为 n 维向量。然而，它节省了 space，因为向量的大小可以小于类别的数量。这通常用于处理语义信息的神经网络。每个单词都作为整数索引传递到模型中，但是嵌入层将每个索引转换为 n 维向量。当您训练模型时，嵌入层会越来越好地表示每个类别。

Answer 2

我刚得到上面问题的答案（与下面标记的黄色相关）：

当您将它们编码为数字并将它们全部保留为单个特征时，模型假设顺序有意义，就此而言 'ios'（映射到 2）大于 'android'（等于 1）

But now it seems like there is some order 0-3 but this is not the case... 'ios' ->2 is not necessarily greater than 'android' ->1

如果对于特定功能没有太多类别，那么很容易在它们上使用获取假人：

data_with_dummies = pd.get_dummies(df_with_cat, columns=['A'], drop_first=True)


        B A_1 A_2   A_3
------------------------
    0   4   0   1   0
    1   4   1   0   0
    2   NaN 0   0   1
    3   2   0   0   0
    4   NaN 0   1   0
    5   3   0   1   0
    6   3   0   0   0
    7   NaN 1   0

现在我们避免了我一开始提到的问题，这应该会显着提高模型的性能

或者只使用 OneHotEncoder - 正如@Primusa 在上面的回答中所述

Answer 3

你只需要 OneHotEncoder

from sklearn.preprocessing import LabelEncoder

df_with_cat_orig = df_with_cat.copy()
la_encoder = LabelEncoder()
df_with_cat['A'] = la_encoder.fit_transform(df_with_cat.A)

from sklearn.preprocessing import OneHotEncoder

oh_enc = OneHotEncoder(categorical_features=[0])
df_with_cat = oh_enc.fit_transform(df_with_cat).toarray()

df_with_cat = df_with_cat[:, 1:]       # remove first column to avoid dummy variable trap

在机器学习中，编码非分层分类特征的最佳方法是什么？

In Machine learning, What is the best way to encode non hierarchic categorial features?

machine-learning

python-3.x

pandas

scikit-learn

feature-engineering