如何使用 Flows 考虑 response_column int 或 Enum 类型

How to consider a response_column int or Enum type using Flows

h2o 中的大多数算法在 response_column 中都有约束。对于其中一些,它必须只是一个 Enum 类型的变量,而对于其他一些则必须是 int。我已经上传了一个数据集,其中我的 response_column 的值是:0,1,因此它可以很容易地转换为 Enum。然后由于某些算法的这种限制,我可以将我的原始类型用于 response_column 但为了测试其他算法,我需要将其转换为 Enum.

我试图创建一个额外的列,比方说 outputAsEnum,但我没有找到如何基于现有列创建额外列的方法。我试图创建原始数据框的副本,但找不到执行此操作的选项。

有没有什么简单的方法可以让 Flow 允许为同一个输出变量考虑多种算法,但之前要正确转换它? (至 Enum 或至 int

我也注意到,为了平衡 response_column 的 类,列类型必须是 Enum。有什么办法可以避免这种情况吗? 基于此,如果我有不平衡数据,我将被迫只使用可以处理 Enum 数据类型的算法。这只是一个示例,还有其他配置参数取决于 response_column.

的数据类型

第一部分可以使用我们的 Python/R API 轻松完成 - Flow 更适合尝试 H2O,执行非常基本的操作 - 您必须准备数据集,使其具有相同的列两次或两次上传相同的数据集。只有当您 运行 将某些算法作为回归问题而将其他算法作为分类问题时,这才应该是一个问题。

至于第二个问题 - 不,只有 binomial/multinomial 问题支持重新平衡(我们通过对某些 类 进行 under/over 采样来实现它)。