一种热编码分类

one hot encoding classification

我有这样一个 CSV 文件

F1  |  F2  |  F3  |  F4  |  Label  

我使用 get_dummies 将标签更改为单热编码表示,数据包含 3 个不同的标签,所以文件现在看起来像

F1  |  F2  |  F3  |  F4  |  Label1  |  Label2  |  Label3

假设我想使用这些数据来训练机器学习模型。我必须确定功能和标签列 我可以将它设置为:

Features, x = [0:3]
Labels, y = [4:6]

对吗?我在想,通过这种方式,也许这可以理解为多标签问题,因为这不是!原来是多classclass化。

非常感谢任何帮助。

您可以尝试 ilocfilter

x = df.iloc[:, :4]
y = df.iloc[:, 4:]

# or

x = df.filter(like='F')
y = df.filter(like='Label')
print(x)

   F1  F2  F3  F4
0   1   2   3   4
1   1   2   3   4
2   1   2   3   4

print(y)

  Label1 Label2 Label3
0      x      y      z
1      x      y      z
2      x      y      z