pandas DataFrame 将代码或标签转换为分类
pandas DataFrame convert codes or labels to categorical
鉴于分类数据的现有 code/label 映射,我想将一系列数据框转换为分类数据。我正在努力将包含 (a) 标签的系列转换为分类,并将包含 (b) 代码的系列转换为分类。
系列数据包含代码(而不是与找到的许多示例不同的类别标签)。
这是我目前得到的结果:
# this is the code-label mapping that I'd like to apply for the
# (a) label -> cat conversion (`df1`)
# (b) code -> cat conversion (`df2`)
>>> cat = pd.Categorical.from_codes([-1, 1, 2, 3], ['-', 'a', 'b', 'c'])
>>> cat.codes
array([-1, 1, 2, 3], dtype=int8)
>>> cat
[NaN, a, b, c]
Categories (4, object): [-, a, b, c]
>>> cat.__array__
<bound method Categorical.__array__ of [NaN, a, b, c]
Categories (4, object): [-, a, b, c]>
>>> df1
x
0 a
1 a
2 c
3 b
4 b
>>> df2
y
0 nan
1 1
2 3
3 2
4 2
我将如何将 x
转换为使用 cat
作为类型。我认为我遇到的问题是我不太明白 pd.Categorical
实际上是什么或者它是如何使用的(它是一个 dtype (看起来不是),它是实际的系列吗(doesn似乎也是如此,因为那样它会允许重复))?它似乎只包含实际的代码标签映射,但我不确定如何使用它(即将它应用于已经存在的系列)。
如果我没理解错的话,您可以通过在 dtype
属性
上使用 .astype
将 df1.x
转换为 cat
的类别
df1.x.astype(cat.dtype)
Out[950]:
0 a
1 a
2 c
3 b
4 b
Name: x, dtype: category
Categories (4, object): [-, a, b, c]
鉴于分类数据的现有 code/label 映射,我想将一系列数据框转换为分类数据。我正在努力将包含 (a) 标签的系列转换为分类,并将包含 (b) 代码的系列转换为分类。
系列数据包含代码(而不是与找到的许多示例不同的类别标签)。
这是我目前得到的结果:
# this is the code-label mapping that I'd like to apply for the
# (a) label -> cat conversion (`df1`)
# (b) code -> cat conversion (`df2`)
>>> cat = pd.Categorical.from_codes([-1, 1, 2, 3], ['-', 'a', 'b', 'c'])
>>> cat.codes
array([-1, 1, 2, 3], dtype=int8)
>>> cat
[NaN, a, b, c]
Categories (4, object): [-, a, b, c]
>>> cat.__array__
<bound method Categorical.__array__ of [NaN, a, b, c]
Categories (4, object): [-, a, b, c]>
>>> df1
x
0 a
1 a
2 c
3 b
4 b
>>> df2
y
0 nan
1 1
2 3
3 2
4 2
我将如何将 x
转换为使用 cat
作为类型。我认为我遇到的问题是我不太明白 pd.Categorical
实际上是什么或者它是如何使用的(它是一个 dtype (看起来不是),它是实际的系列吗(doesn似乎也是如此,因为那样它会允许重复))?它似乎只包含实际的代码标签映射,但我不确定如何使用它(即将它应用于已经存在的系列)。
如果我没理解错的话,您可以通过在 dtype
属性
.astype
将 df1.x
转换为 cat
的类别
df1.x.astype(cat.dtype)
Out[950]:
0 a
1 a
2 c
3 b
4 b
Name: x, dtype: category
Categories (4, object): [-, a, b, c]