读取类似多维数据数组的 csv，以便使用 sklearn 进行进一步处理

Question

我有包含这样数据的 csv 文件：

jake 12 71 31 82 True
jake 44 54 44 80 True
jake 51 30 39 75 True
will 56 12 63 10 False
will 76 74 25 13 False
will 41 98 65 15 False
rich 77 11 93 25 False
rich 18 88 90 11 False
rich 22 12 99 20 False
chez 97 45 74 99 True
chez 91 31 71 15 True
chez 90 40 50 13 True

所以它是每个人的多行数据块。

我想阅读它以便用 scikit-learn 进一步处理。

现在我的代码看起来像这样

import pandas as pd
import numpy as np

data = pd.read_csv('example_dataset.csv', sep=',')
data = data[['name', 'a', 'b', 'c', 'd', 'YesNo']]
X = np.array(data)

但我得到的数组每个条目代表每一行。但是数据必须以按名称表示相关数据行的方式构建。那么如何安排并准备数据以进一步用于机器学习以预测最后一列（最有可能是 True 还是 False）？

Answer 1

以下几行允许我将 table 适当地拉入适当的 df。

data = pd.read_csv("example_dataset.csv", header=None, sep=",")
data.columns = ["name", "a", "b", "c", "d", "YesNo"]
print(data.head())

读取类似多维数据数组的 csv，以便使用 sklearn 进行进一步处理

Read csv like multidimensional data array for further processing with sklearn

numpy

python-3.x

pandas

scikit-learn

sklearn-pandas