特征 scaling/normalization 中的最小值和最大值？

Question

我是机器学习的新手，我正在使用线性特征缩放来预处理我的训练数据。

我的问题是，给定一个 .csv 文件，其中每一列数据代表一个特征，我应该使用什么 minX 和 maxX 值来规范化我的数据？

更具体地说，我应该分别规范化每个特征（使用每列的 minX/maxX 值），同时规范化所有数据（从整个数据集中找到 minX/maxX，因此所有特征), 或在逐个输入的基础上进行归一化？

Answer 1

分别对每个特征进行归一化。您想要的是将每个特征的范围限制在明确定义的区间内（即 [0,1]）。仅使用来自训练数据集的数据。

如果您使用 Min-Max 缩放比例，您将拥有更小的 STD，这还不错。如果使用 Min-Max 或标准化 (mu=0, std=1) 取决于您需要做的应用程序。

Answer 2

您希望所有特征都在线性分类器的同一范围内（不仅是它们！也适用于神经网络！）。在继续之前，您应该非常清楚您想要扩展的原因。查看关于此主题的 Andrew Ng's lecture，以获得对正在发生的事情的直观解释。

弄清楚这一点后，您应该就有了问题的答案：分别对每个特征进行归一化。例如，如果您有一个包含 3 行的 table：

row | F1 | F2
1   | 1  | 1000
2   | 2  | 2000
3   | 3  | 3000

您想通过取最大值 (3) 和最小值 (1) 来缩放 F1。您将对分别具有 3000 和 1000 作为最大值和最小值的 F2 执行相同的操作。

这称为 MinMax 缩放。您还可以根据均值和方差进行缩放，或者完全遵循另一种方法，认为您通常在计算资源方面拥有 "budget"，并且您希望将其最大化。在这种情况下，Histogram Equalization 之类的内容可能是一个不错的选择。

最后一点：如果您正在使用决策树（作为独立的分类器，或者在决策林中，或者在增强集成中），那么不要费心规范化，它不会改变任何事情。

Minimum and maximum values in feature scaling/normalization?