h2o 数据帧枚举类型的内部字符串到整数映射是否始终相同?
Is the h2o dataframe enum type's internal string-to-int mapping always the same?
查看 h2o 的 categorical_encoding enum
类型的文档,上面写着
enum or Enum: Leave the dataset as is, internally map the strings to
integers, and use these integers to make splits - either via ordinal
nature when nbins_cats is too small to resolve all levels or via
bitsets that do a perfect group split. Each category is a separate
category; its name (or number) is irrelevant. For example, after the
strings are mapped to integers for Enum, you can split {0, 1, 2, 3, 4,
5} as {0, 4, 5} and {1, 2, 3}.
这是否意味着每当我将相同的(在这种情况下)pandas 数据帧转换为 h2o 数据帧时,每个分类 enum
类型列值的内部表示将始终是一样的(还是每次都以某种方式随机)? (我认为它必须是为了对 运行 在数据帧上训练的模型的任何实际预测有用,但想确保我的理解是正确的)。
- 附带说明一下,文档描述中的 "to make splits" 是什么意思?
只要分类级别相同,顺序就会相同,索引也会以相同的方式分配。
拆分指的是基于树的模型。
查看 h2o 的 categorical_encoding enum
类型的文档,上面写着
enum or Enum: Leave the dataset as is, internally map the strings to integers, and use these integers to make splits - either via ordinal nature when nbins_cats is too small to resolve all levels or via bitsets that do a perfect group split. Each category is a separate category; its name (or number) is irrelevant. For example, after the strings are mapped to integers for Enum, you can split {0, 1, 2, 3, 4, 5} as {0, 4, 5} and {1, 2, 3}.
这是否意味着每当我将相同的(在这种情况下)pandas 数据帧转换为 h2o 数据帧时,每个分类 enum
类型列值的内部表示将始终是一样的(还是每次都以某种方式随机)? (我认为它必须是为了对 运行 在数据帧上训练的模型的任何实际预测有用,但想确保我的理解是正确的)。
- 附带说明一下,文档描述中的 "to make splits" 是什么意思?
只要分类级别相同,顺序就会相同,索引也会以相同的方式分配。
拆分指的是基于树的模型。