我是否需要在 H2O 中或一般情况下对随机森林 (drf) 或梯度提升机 (GBM) 的数据进行归一化(或缩放)?

Should I need to normalize (or scale) the data for Random forest (drf) or Gradient Boosting Machine (GBM) in H2O or in general?

我正在 H2O.ai 中使用随机森林 (DRF) 和 GBM 创建分类和回归模型。我相信我不需要规范化(或缩放)数据,因为它是不必要的,而且危害更大,因为它可能会消除模型的非线性特性。请确认我的理解是否正确

使用 H2O 时无需对数据做任何操作 - 所有算法都会自动处理 numeric/categorical/string 列。有些方法会自动进行内部标准化,但树方法不会也不需要(在 age > 5 和 income < 100000 时拆分就可以了)。至于是不是 "harmful" 取决于你在做什么,通常让算法做标准化是个好主意,除非你确切地知道你在做什么。一个例子是聚类,其中距离取决于数据的缩放比例(或缺乏缩放比例)。