一种热编码分类特征 - 仅稀疏形式
One hot encoding categorical features - Sparse form only
我有一个具有 int 和分类特征的数据框。分类特征有两种类型:数字和字符串。
我能够对作为数字的整数和分类列进行一次热编码。当我尝试对作为字符串的分类列进行热编码时出现错误。
ValueError: could not convert string to float: '13367cc6'
由于数据框很大且基数很高,所以我只想将其转换为稀疏形式。我更喜欢使用 from sklearn.preprocessing import OneHotEncoder
的解决方案,因为我很熟悉它。
我也检查了其他问题,但其中 none 解决了我的问题。
data = [[623, 'dog', 4], [123, 'cat', 2],[623, 'cat', 1], [111, 'lion', 6]]
上面的数据框包含 4 行和 3 列
列名称 - ['animal_id', 'animal_name', 'number']
假设 animal_id
和 animal_name
作为类别存储在 pandas 中,数字作为 int64 dtype。
假设您有以下 DF:
In [124]: df
Out[124]:
animal_id animal_name number
0 623 dog 4
1 123 cat 2
2 623 cat 1
3 111 lion 6
In [125]: df.dtypes
Out[125]:
animal_id int64
animal_name category
number int64
dtype: object
先保存animal_name
列(如果以后需要的话):
In [126]: animal_name = df['animal_name']
将 animal_name
列转换为分类(节省内存)数字列:
In [127]: df['animal_name'] = df['animal_name'].cat.codes.astype('category')
In [128]: df
Out[128]:
animal_id animal_name number
0 623 1 4
1 123 0 2
2 623 0 1
3 111 2 6
In [129]: df.dtypes
Out[129]:
animal_id int64
animal_name category
number int64
dtype: object
现在 OneHotEncoder 应该可以工作了:
In [130]: enc = OneHotEncoder()
In [131]: enc.fit(df)
Out[131]:
OneHotEncoder(categorical_features='all', dtype=<class 'numpy.float64'>,
handle_unknown='error', n_values='auto', sparse=True)
In [132]: X = enc.fit(df)
In [134]: X.n_values_
Out[134]: array([624, 3, 7])
In [135]: enc.feature_indices_
Out[135]: array([ 0, 624, 627, 634], dtype=int32)
仅供参考,还有其他强大的编码方案没有像 onehot 编码那样添加大量列(事实上他们根本没有添加任何列)。其中一些是计数编码,目标编码。详情请看我的回答 and my ipynb here.
我有一个具有 int 和分类特征的数据框。分类特征有两种类型:数字和字符串。
我能够对作为数字的整数和分类列进行一次热编码。当我尝试对作为字符串的分类列进行热编码时出现错误。
ValueError: could not convert string to float: '13367cc6'
由于数据框很大且基数很高,所以我只想将其转换为稀疏形式。我更喜欢使用 from sklearn.preprocessing import OneHotEncoder
的解决方案,因为我很熟悉它。
我也检查了其他问题,但其中 none 解决了我的问题。
data = [[623, 'dog', 4], [123, 'cat', 2],[623, 'cat', 1], [111, 'lion', 6]]
上面的数据框包含 4 行和 3 列
列名称 - ['animal_id', 'animal_name', 'number']
假设 animal_id
和 animal_name
作为类别存储在 pandas 中,数字作为 int64 dtype。
假设您有以下 DF:
In [124]: df
Out[124]:
animal_id animal_name number
0 623 dog 4
1 123 cat 2
2 623 cat 1
3 111 lion 6
In [125]: df.dtypes
Out[125]:
animal_id int64
animal_name category
number int64
dtype: object
先保存animal_name
列(如果以后需要的话):
In [126]: animal_name = df['animal_name']
将 animal_name
列转换为分类(节省内存)数字列:
In [127]: df['animal_name'] = df['animal_name'].cat.codes.astype('category')
In [128]: df
Out[128]:
animal_id animal_name number
0 623 1 4
1 123 0 2
2 623 0 1
3 111 2 6
In [129]: df.dtypes
Out[129]:
animal_id int64
animal_name category
number int64
dtype: object
现在 OneHotEncoder 应该可以工作了:
In [130]: enc = OneHotEncoder()
In [131]: enc.fit(df)
Out[131]:
OneHotEncoder(categorical_features='all', dtype=<class 'numpy.float64'>,
handle_unknown='error', n_values='auto', sparse=True)
In [132]: X = enc.fit(df)
In [134]: X.n_values_
Out[134]: array([624, 3, 7])
In [135]: enc.feature_indices_
Out[135]: array([ 0, 624, 627, 634], dtype=int32)
仅供参考,还有其他强大的编码方案没有像 onehot 编码那样添加大量列(事实上他们根本没有添加任何列)。其中一些是计数编码,目标编码。详情请看我的回答