DAI standardize/normalize 在训练过程中,它尝试了哪些方法,遗传算法是否尝试了所有方法?

Does DAI standardize/normalize during training, which methods does it try, and does the genetic algorithm try them all?

在使用 DAI 时,我常常不确定要在多大程度上预处理我的数据。对于生产级模型,您通常希望降低维度、删除重复特征、standardize/normalize 等。是否存在我应该停止个人预处理以支持 DAI 的规则(即仅删除 Nan 的二进制分类算法,其余的由 DAI 完成)。它会明确解释它使用了哪种归一化技术,例如来自 Sklearn 的 MinMaxScaler() 吗?

通常不需要预处理,DAI 用于内部预处理的方法取决于模型背后的算法。

但是,有些特定用例可能需要预处理,如果您与他们联系,h2o 可以为您提供帮助。例如,如果你想在客户层面预测一些事情,但你的数据是交易,那么你需要进行预处理——假设你有杂货店交易,你想预测商店明天能赚多少钱。然后您需要聚合到日间商店级别,因为这是您想要预测的级别。基本上,任何数据比您想要预测的级别更细化的情况都需要预处理。

对于缺失值,最好让 Driverless AI 处理它们,除非您知道为什么缺失值,因此可以使用域规则来填充它们。例如,如果您有交易 = NA 但您知道这意味着没有钱花完了,你想把NA改成0。

我认为以下文档可能会有帮助:http://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/faq.html#data-experiments-predictions。特别是 'Can Driverless AI handle data with missing values/nulls?' 和 'Does Driverless AI standardize the data?'.

部分

您还可以在实验报告中找到很多关于您的实验在做什么的信息:http://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/experiment-summary.html。我们目前不报告标准化方法,因为对于一个可能非常复杂的集合中的每个模型,它的发生方式不同。