python 中 h2o 中编码的分类特征

Encoded categorical features in h2o in python

当我们允许 h2o 通过将列转换为 enum 类型来自动创建分类数据时,有没有办法查看分类特征是如何编码的?

我正在实施 holdout stacking,其中我的基础训练数据因每个模型而异。我有一个共同的特征,我想确保在两个集合中以相同的方式编码。该功能包含名称 (str)。保证出现在一个数据集中的所有名字都会出现在另一个数据集中。

查看模型内部的最佳方式是导出 pojo,然后查看 java 源代码。您应该看到它是如何处理枚举的。

但是,如果我正确理解了你剩下的问题,那应该没问题。只要训练数据包含类别的所有可能值,它就会按您预期的方式工作。如果在训练中看不到的分类值出现在生产中,它将被视为 NA。