DAI standardize/normalize 在训练过程中，它尝试了哪些方法，遗传算法是否尝试了所有方法？

Does DAI standardize/normalize during training, which methods does it try, and does the genetic algorithm try them all?

在使用 DAI 时，我常常不确定要在多大程度上预处理我的数据。对于生产级模型，您通常希望降低维度、删除重复特征、standardize/normalize 等。是否存在我应该停止个人预处理以支持 DAI 的规则（即仅删除 Nan 的二进制分类算法，其余的由 DAI 完成）。它会明确解释它使用了哪种归一化技术，例如来自 Sklearn 的 MinMaxScaler() 吗？

通常不需要预处理，DAI 用于内部预处理的方法取决于模型背后的算法。

但是，有些特定用例可能需要预处理，如果您与他们联系，h2o 可以为您提供帮助。例如，如果你想在客户层面预测一些事情，但你的数据是交易，那么你需要进行预处理——假设你有杂货店交易，你想预测商店明天能赚多少钱。然后您需要聚合到日间商店级别，因为这是您想要预测的级别。基本上，任何数据比您想要预测的级别更细化的情况都需要预处理。

对于缺失值，最好让 Driverless AI 处理它们，除非您知道为什么缺失值，因此可以使用域规则来填充它们。例如，如果您有交易 = NA 但您知道这意味着没有钱花完了，你想把NA改成0。

我认为以下文档可能会有帮助：http://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/faq.html#data-experiments-predictions。特别是 'Can Driverless AI handle data with missing values/nulls?' 和 'Does Driverless AI standardize the data?'.

部分

您还可以在实验报告中找到很多关于您的实验在做什么的信息：http://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/experiment-summary.html。我们目前不报告标准化方法，因为对于一个可能非常复杂的集合中的每个模型，它的发生方式不同。