在 SparkR 中使用 H2O 合并列 (h2o.merge)

Merging columns (h2o.merge) using H2O in SparkR

在我当前的项目中，我在 SparkR 中使用 H2O 机器学习库。我有多个 .csv 文件并通过 h2o 数据框读取这些 .csv 文件。现在，我想对文件应用 h2o.merge() 函数以 将一个 h2o 数据帧的主键映射到另一个 h2o 数据帧的外键 。我的主要 h2o 数据框包含 14 列。我使用 h2o.getTypes() 函数获取所有列的数据类型。

为了应用h2o.merge()函数，该列的类型应该是字符串或数字，而不是枚举或实数。因此，为了转换列的数据类型，我使用了 h2o.ascharacter() 和 h2o.asfactor() 函数。现在，我已将枚举列转换为字符串列以使用 h2o.merge() 函数。当我使用 h2o.merge() 函数时，它显示以下错误：我错过了什么吗？我从 link Syntax of h2o.merge function 中捕获了使用 h2o.merge() 函数的语法。如何合并 h2o 数据帧？ factTable h2o数据框示例数据集如下所示（SALES_ORG为主键）： regionTable h2o数据框示例数据集如下图（SALES_ORG为外键）：

最后，我根据评论中的提示找出了答案。 基本的事情是我们需要在应用合并操作之前将列转换为factor/enum。具有主键或外键的列的数据类型应为 factor/enum。

在 SparkR 中使用 H2O 合并列 (h2o.merge)

Merging columns (h2o.merge) using H2O in SparkR

merge

r

h2o

sparkr