我是否需要在 H2O 中或一般情况下对随机森林 (drf) 或梯度提升机 (GBM) 的数据进行归一化（或缩放）？

Should I need to normalize (or scale) the data for Random forest (drf) or Gradient Boosting Machine (GBM) in H2O or in general?

我正在 H2O.ai 中使用随机森林 (DRF) 和 GBM 创建分类和回归模型。我相信我不需要规范化（或缩放）数据，因为它是不必要的，而且危害更大，因为它可能会消除模型的非线性特性。请确认我的理解是否正确

使用 H2O 时无需对数据做任何操作 - 所有算法都会自动处理 numeric/categorical/string 列。有些方法会自动进行内部标准化，但树方法不会也不需要（在 age > 5 和 income < 100000 时拆分就可以了）。至于是不是 "harmful" 取决于你在做什么，通常让算法做标准化是个好主意，除非你确切地知道你在做什么。一个例子是聚类，其中距离取决于数据的缩放比例（或缺乏缩放比例）。

我是否需要在 H2O 中或一般情况下对随机森林 (drf) 或梯度提升机 (GBM) 的数据进行归一化（或缩放）？

Should I need to normalize (or scale) the data for Random forest (drf) or Gradient Boosting Machine (GBM) in H2O or in general?

random-forest

h2o

xgboost