什么时候在机器学习中进行规范化或标准化?

When to perform Normalization or Standardization in machine learning?

如果所有特征都具有相同的比例,我是否必须对我的数据进行归一化?例如,所有列都是特征,每个 row/sample 是每个特征的出现次数?如果需要归一化,我需要特征归一化还是样本归一化?

不,如果所有特征都在同一尺度上,则不必对数据进行归一化。

对于标准化,您想检查数据的统计分布以确保它们具有均值 μ=0 和标准差 σ=1 的标准正态分布;其中μ是均值(平均值),σ是均值的标准差。

您可以在 pandas 中执行此操作,方法是对您的数据调用 .describe() 并调查 meanstd。如果碰巧某些特征具有正态分布而其他特征则没有,您可以进行我们的样本标准化(在整个数据集上)。