ML 的数据准备阶段是否应该包括:将数据拟合到正确的分布,然后进行缩放?

Should the data preparation phase for ML include both: fitting data to right distribution followed by Scaling?

我已经使用 distfit 库找到适合我的数据的最佳分布以避免偏斜。比方说,我已经使用 boxcox 方法将我的数据转换为正态分布。

在此之后,我是否应该缩放我的数据,例如,使用能够很好地处理异常值的 Robust Scaler。

我很困惑我应该同时执行这两个步骤还是只执行一个。

不确定我在数据准备阶段是否朝着正确的方向前进。请分享您对此的看法。谢谢!

您可能或可能必须在归一化后进行缩放。

答案取决于我们对这些数据做了什么。 例如我们打算适合某些模型吗?或者其他什么?

一个具体的例子是:

如果想训练我们的神经网络模型,请看:

  • 为了更快地收敛训练:我们应该让 mean= 0 和 sigma=1(需要归一化)
  • 为了有效的正则化,您必须拥有相似规模的所有数据特征。 (需要缩放)

相比之下,如果你想拟合决策树,那么这些都不需要。

所以,这一切都归结为我们在处理数据后要做的事情。