h2o 数据帧枚举类型的内部字符串到整数映射是否始终相同?

Is the h2o dataframe enum type's internal string-to-int mapping always the same?

查看 h2o 的 categorical_encoding enum 类型的文档,上面写着

enum or Enum: Leave the dataset as is, internally map the strings to integers, and use these integers to make splits - either via ordinal nature when nbins_cats is too small to resolve all levels or via bitsets that do a perfect group split. Each category is a separate category; its name (or number) is irrelevant. For example, after the strings are mapped to integers for Enum, you can split {0, 1, 2, 3, 4, 5} as {0, 4, 5} and {1, 2, 3}.

这是否意味着每当我将相同的(在这种情况下)pandas 数据帧转换为 h2o 数据帧时,每个分类 enum 类型列值的内部表示将始终是一样的(还是每次都以某种方式随机)? (我认为它必须是为了对 运行 在数据帧上训练的模型的任何实际预测有用,但想确保我的理解是正确的)。

只要分类级别相同,顺序就会相同,索引也会以相同的方式分配。

拆分指的是基于树的模型。