我对 h2o 分布式随机森林模型有一些疑问

I have some questions about h2o distributed random forest model

根据 DRF 部分常见问题解答中的 H2O 文档,this note is mentioned 关于 "How does the algorithm handle missing values during training?" 常见问题解答:

Note: Unlike in GLM, in DRF numerical values are handled the same way as categorical values. Missing values are not imputed with the mean, as is done by default in GLM.

我用一个DRF算法解决了一个回归问题,但是当我看到这个笔记的时候,我觉得很奇怪。如果我将所有数值都转换为分类值来解决回归问题,我认为这是无稽之谈。

这是我的问题。

感谢您阅读我的问题。

不,H2O 不要求您将所有数值转换为分类值。

如果您想查看经过训练的 H2O DRF 模型如何处理不同的输入列,请按照以下说明查看 MOJO。

请注意,在下图中,数字列是通过 "less than" 值比较来处理的,而分类列是通过将一些级别发送到左子节点而将一些级别发送到右子节点来处理的。