是否可以启用 H2O DAI 在构建模型时检查变量多重共线性?

Is it possible to enable the H2O DAI to check variable multicollinearity when building models?

在使用H2O DAI建立模型时,我注意到最终的模型会有一些相关的变量。 例如,变量“过去 9 个月的最大储蓄账户数”和“过去 3 个月的最大储蓄账户数”都出现在最终模型中,但它们具有很高的相关性。 了解在为 H2O DAI 提供数据之前我们可以通过多种方式检查这一点,但我想知道是否有一些设置或好的方法可以让 H2O DAI 在选择构建模型的特征时自动检查变量多重共线性?

提前感谢您的帮助。

如果您想查看相关特征并在构建模型之前手动删除它们。转到 Autoviz 部分并查看 Correlated Scatterplots,然后从实验或数据集中删除这些列。

对于任何建模来说,删除共线特征都很困难,因为您不知道哪个特征会比另一个更好。如果同时拥有“过去 9 个月的最大储蓄账户数”和“过去 3 个月的最大储蓄账户数”会使您的模型比只有一个模型表现得更好怎么办?这是领域知识变得重要的地方,应该由专家来决定。

消除某些共线性的一种方法是限制模型具有的特征数量。您可以使用 max_orig_cols_selected 来限制数量。您可以在专家设置或 config.toml (see for more info) 中进行设置。但正如我之前所说,很难确定是否应该保留某些共线特征。

另一种选择是使用 algorithms/models 固有地进行特征选择,例如 L1 (LASSO) 回归。