如何使用 pandas 对浮点数列进行分类
How to bin column of floats with pandas
在我将 python 2.x 升级到 3.x 之前,此代码一直有效。
我有一个由 3 列 ipk1、ipk2、ipk3 组成的 df。
ipk1、ipk2、ipk3 由浮点数 0 - 4.0 组成,
我想将它们放入字符串中。
数据看起来像这样:
ipk1 ipk2 ipk3 ipk4 ipk5 jk
0 3.25 3.31 3.31 3.31 3.34 P
1 3.37 3.33 3.36 3.33 3.41 P
2 3.41 3.47 3.59 3.55 3.60 P
3 3.23 3.10 3.05 2.98 2.97 L
4 3.24 3.40 3.22 3.23 3.25 L
在 python 2.x 上此代码有效,但在我将其升级到 python 3 后它无效。还有其他方法可以将它放入字符串中吗?我试过使用它也没有任何帮助。
train1.loc[train1['ipk1'] > 3.6, 'ipk1'] = 'A',
train1.loc[(train1['ipk1']>3.2) & (train1['ipk1']<=3.6),'ipk1']='B',
train1.loc[(train1['ipk1']>2.8) & (train1['ipk1']<=3.2),'ipk1']='C',
train1.loc[(train1['ipk1']>2.4) & (train1['ipk1']<=2.8),'ipk1']='D',
train1.loc[(train1['ipk1']>2.0) & (train1['ipk1']<=2.4),'ipk1']='E',
train1.loc[(train1['ipk1']>1.6) & (train1['ipk1']<=2.0),'ipk1']='F',
train1.loc[(train1['ipk1']>1.2) & (train1['ipk1']<=1.6),'ipk1']='G',
train1.loc[train1['ipk1'] <= 1.2, 'ipk1'] = 'H'
我收到的错误:
TypeError: '>' not supported between instances of 'str' and 'float'
我的预期输出:
ipk1 ipk2 ipk3 ipk4 ipk5 jk
0 B 3.31 3.31 3.31 3.34 P
1 B 3.33 3.36 3.33 3.41 P
2 B 3.47 3.59 3.55 3.60 P
3 B 3.10 3.05 2.98 2.97 L
4 B 3.40 3.22 3.23 3.25 L
这是 pandas.cut
的一个很好的用例:
bins = [-np.inf, 1.2, 1.6, 2.0, 2.4, 2.8, 3.2, 3.6, np.inf]
labels = ['H', 'G', 'F', 'E', 'D', 'C', 'B', 'A']
df['ipk1'] = pd.cut(df['ipk1'], bins=bins, labels=labels)
您可以使用 pd.cut
以更简单的方式执行此操作。方法如下:
bins = [float('-inf'),1.2,1.6,2.,2.4,2.8,3.2,3.6,float('inf')]
labels = ['H','G','F','E','D','C','B','A']
df['ipk1'] = pd.cut(df.ipk1, bins=bins, labels=labels)
print(df)
ipk1 ipk2 ipk3 ipk4 ipk5 jk
0 B 3.31 3.31 3.31 3.34 P
1 B 3.33 3.36 3.33 3.41 P
2 B 3.47 3.59 3.55 3.60 P
3 B 3.10 3.05 2.98 2.97 L
4 B 3.40 3.22 3.23 3.25 L
在我将 python 2.x 升级到 3.x 之前,此代码一直有效。 我有一个由 3 列 ipk1、ipk2、ipk3 组成的 df。 ipk1、ipk2、ipk3 由浮点数 0 - 4.0 组成, 我想将它们放入字符串中。
数据看起来像这样:
ipk1 ipk2 ipk3 ipk4 ipk5 jk
0 3.25 3.31 3.31 3.31 3.34 P
1 3.37 3.33 3.36 3.33 3.41 P
2 3.41 3.47 3.59 3.55 3.60 P
3 3.23 3.10 3.05 2.98 2.97 L
4 3.24 3.40 3.22 3.23 3.25 L
在 python 2.x 上此代码有效,但在我将其升级到 python 3 后它无效。还有其他方法可以将它放入字符串中吗?我试过使用它也没有任何帮助。
train1.loc[train1['ipk1'] > 3.6, 'ipk1'] = 'A',
train1.loc[(train1['ipk1']>3.2) & (train1['ipk1']<=3.6),'ipk1']='B',
train1.loc[(train1['ipk1']>2.8) & (train1['ipk1']<=3.2),'ipk1']='C',
train1.loc[(train1['ipk1']>2.4) & (train1['ipk1']<=2.8),'ipk1']='D',
train1.loc[(train1['ipk1']>2.0) & (train1['ipk1']<=2.4),'ipk1']='E',
train1.loc[(train1['ipk1']>1.6) & (train1['ipk1']<=2.0),'ipk1']='F',
train1.loc[(train1['ipk1']>1.2) & (train1['ipk1']<=1.6),'ipk1']='G',
train1.loc[train1['ipk1'] <= 1.2, 'ipk1'] = 'H'
我收到的错误:
TypeError: '>' not supported between instances of 'str' and 'float'
我的预期输出:
ipk1 ipk2 ipk3 ipk4 ipk5 jk
0 B 3.31 3.31 3.31 3.34 P
1 B 3.33 3.36 3.33 3.41 P
2 B 3.47 3.59 3.55 3.60 P
3 B 3.10 3.05 2.98 2.97 L
4 B 3.40 3.22 3.23 3.25 L
这是 pandas.cut
的一个很好的用例:
bins = [-np.inf, 1.2, 1.6, 2.0, 2.4, 2.8, 3.2, 3.6, np.inf]
labels = ['H', 'G', 'F', 'E', 'D', 'C', 'B', 'A']
df['ipk1'] = pd.cut(df['ipk1'], bins=bins, labels=labels)
您可以使用 pd.cut
以更简单的方式执行此操作。方法如下:
bins = [float('-inf'),1.2,1.6,2.,2.4,2.8,3.2,3.6,float('inf')]
labels = ['H','G','F','E','D','C','B','A']
df['ipk1'] = pd.cut(df.ipk1, bins=bins, labels=labels)
print(df)
ipk1 ipk2 ipk3 ipk4 ipk5 jk
0 B 3.31 3.31 3.31 3.34 P
1 B 3.33 3.36 3.33 3.41 P
2 B 3.47 3.59 3.55 3.60 P
3 B 3.10 3.05 2.98 2.97 L
4 B 3.40 3.22 3.23 3.25 L