H2O Driverless AI 是否内置支持合并多个数据集并使用合并的数据集进行训练？

Question

假设我们有三个包含公司数据的数据集。

employee.csv ：该数据集包含在公司工作的员工的详细信息，例如员工ID，员工姓名，他所在部门的部门ID，他来自的国家的国家代码和他的年薪。
dept.csv : 这个数据集有关于公司部门的信息，比如部门 ID、部门名称、部门专业。
country.csv ：该数据集包含一些国家名称及其国家代码和国家首都。

H2O Driverless AI 中是否有我们可以上传这些数据集（无需使用 python 进行合并）并将其合并到 H2O Driverless AI 平台中并使用重叠列进行训练的功能？

Answer 1

是的，您可以使用数据配方来处理数据集（包括加入它们）。有关数据配方的更多信息，请参阅 docs。您可以创建连接数据集的配方。

# Let's join a `employee.csv` (X) to `dept.csv` (Y1) and `country.csv` (Y2)
# Define and read locations of datasets for Y1/Y2
Y_file_name1 = "./tmp/user/location_of_dept.csv.bin"
Y_file_name2 = "./tmp/user/location_of_country.csv.bin"
Y1 = dt.fread(Y_file_name1)
Y2 = dt.fread(Y_file_name2)

# Set key and join Y1
key1 = ["dept_id"]
Y1.key = key1
X = X[:, :, dt.join(Y1)]

# Set key and join Y2
key2 = ["country_code"]
Y2.key = key2
X = X[:, :, dt.join(Y2)]

return X

请参阅 this recipe 作为将一个数据集连接到另一个数据集的示例。

H2O Driverless AI 是否内置支持合并多个数据集并使用合并的数据集进行训练？

Does H2O Driverless AI have inbuilt support for merging multiple dataset and using the merged dataset for training?

csv

merging-data

training-data

h2o

driverless-ai