如何使用 Flows 考虑 response_column int 或 Enum 类型
How to consider a response_column int or Enum type using Flows
h2o 中的大多数算法在 response_column
中都有约束。对于其中一些,它必须只是一个 Enum
类型的变量,而对于其他一些则必须是 int
。我已经上传了一个数据集,其中我的 response_column
的值是:0,1
,因此它可以很容易地转换为 Enum
。然后由于某些算法的这种限制,我可以将我的原始类型用于 response_column
但为了测试其他算法,我需要将其转换为 Enum
.
我试图创建一个额外的列,比方说 outputAsEnum
,但我没有找到如何基于现有列创建额外列的方法。我试图创建原始数据框的副本,但找不到执行此操作的选项。
有没有什么简单的方法可以让 Flow 允许为同一个输出变量考虑多种算法,但之前要正确转换它? (至 Enum
或至 int
)
我也注意到,为了平衡 response_column
的 类,列类型必须是 Enum
。有什么办法可以避免这种情况吗? 基于此,如果我有不平衡数据,我将被迫只使用可以处理 Enum
数据类型的算法。这只是一个示例,还有其他配置参数取决于 response_column
.
的数据类型
第一部分可以使用我们的 Python/R API 轻松完成 - Flow 更适合尝试 H2O,执行非常基本的操作 - 您必须准备数据集,使其具有相同的列两次或两次上传相同的数据集。只有当您 运行 将某些算法作为回归问题而将其他算法作为分类问题时,这才应该是一个问题。
至于第二个问题 - 不,只有 binomial/multinomial 问题支持重新平衡(我们通过对某些 类 进行 under/over 采样来实现它)。
h2o 中的大多数算法在 response_column
中都有约束。对于其中一些,它必须只是一个 Enum
类型的变量,而对于其他一些则必须是 int
。我已经上传了一个数据集,其中我的 response_column
的值是:0,1
,因此它可以很容易地转换为 Enum
。然后由于某些算法的这种限制,我可以将我的原始类型用于 response_column
但为了测试其他算法,我需要将其转换为 Enum
.
我试图创建一个额外的列,比方说 outputAsEnum
,但我没有找到如何基于现有列创建额外列的方法。我试图创建原始数据框的副本,但找不到执行此操作的选项。
有没有什么简单的方法可以让 Flow 允许为同一个输出变量考虑多种算法,但之前要正确转换它? (至 Enum
或至 int
)
我也注意到,为了平衡 response_column
的 类,列类型必须是 Enum
。有什么办法可以避免这种情况吗? 基于此,如果我有不平衡数据,我将被迫只使用可以处理 Enum
数据类型的算法。这只是一个示例,还有其他配置参数取决于 response_column
.
第一部分可以使用我们的 Python/R API 轻松完成 - Flow 更适合尝试 H2O,执行非常基本的操作 - 您必须准备数据集,使其具有相同的列两次或两次上传相同的数据集。只有当您 运行 将某些算法作为回归问题而将其他算法作为分类问题时,这才应该是一个问题。
至于第二个问题 - 不,只有 binomial/multinomial 问题支持重新平衡(我们通过对某些 类 进行 under/over 采样来实现它)。