线性回归 :: 归一化 (Vs) 标准化
Linear Regression :: Normalization (Vs) Standardization
我正在使用线性回归来预测数据。但是,当我标准化 (Vs) 标准化变量时,我得到了完全不同的结果。
归一化 = x -xmin/ xmax – xmin
零分标准化 = x - xmean/ xstd
a) Also, when to Normalize (Vs) Standardize ?
b) How Normalization affects Linear Regression?
c) Is it okay if I don't normalize all the attributes/lables in the linear regression?
谢谢,
桑托什
这是有道理的,因为规范化和标准化做不同的事情。
归一化将您的数据转换为 0 到 1 之间的范围
标准化会转换您的数据,使生成的分布的均值为 0,标准差为 1
Normalization/standardization 旨在实现类似的目标,即创建彼此具有相似范围的特征。我们希望如此,这样我们就可以确定我们正在捕获特征中的真实信息,并且我们不会仅仅因为某个特定特征的值比其他特征大得多就过度权衡它。
如果您的所有特征都在彼此相似的范围内,那么就没有必要 standardize/normalize。但是,如果某些特征自然地具有比其他特征多 larger/smaller 的值,则 normalization/standardization 被称为
如果您要规范化至少一个 variable/feature,我也会对所有其他人做同样的事情
请注意,结果不一定如此不同。您可能只需要为这两个选项设置不同的超参数即可获得相似的结果。
理想的做法是测试最适合您的问题的方法。如果您出于某种原因负担不起,大多数算法可能会从标准化中受益,而不是从规范化中受益。
请参阅 here 了解何时应优先选择另一个的示例:
For example, in clustering analyses, standardization may be especially crucial in order to compare similarities between features based on certain distance measures. Another prominent example is the Principal Component Analysis, where we usually prefer standardization over Min-Max scaling, since we are interested in the components that maximize the variance (depending on the question and if the PCA computes the components via the correlation matrix instead of the covariance matrix; but more about PCA in my previous article).
However, this doesn’t mean that Min-Max scaling is not useful at all! A popular application is image processing, where pixel intensities have to be normalized to fit within a certain range (i.e., 0 to 255 for the RGB color range). Also, typical neural network algorithm require data that on a 0-1 scale.
与标准化相比,规范化的一个缺点是它丢失了数据中的一些信息,尤其是关于离群值的信息。
同样在链接页面上,有这张图片:
如您所见,缩放会将所有数据非常靠近地聚集在一起,这可能不是您想要的。它可能会导致梯度下降等算法需要更长的时间才能收敛到与标准化数据集相同的解决方案,甚至可能无法实现。
“标准化变量”没有任何意义。正确的术语是“标准化/缩放特征”。如果您要规范化或缩放一个功能,您应该对其余功能执行相同的操作。
第一个问题是为什么我们需要 Normalisation/Standardisation?
=> 我们以数据集为例,其中我们有工资变量和年龄变量。
年龄范围可以从 0 到 90,其中薪水可以从 2.5 万到 25 万。
我们比较两个人的差异,然后年龄差异将在 100 以下的范围内,而工资差异将在数千的范围内。
因此,如果我们不希望一个变量支配另一个变量,那么我们可以使用规范化或标准化。现在年龄和薪水都将处于同一比例
但是当我们使用标准化或规范化时,我们会丢失原始值并将其转换为某些值。因此,当我们想从我们的数据中得出推论时,解释的损失非常重要。
归一化将值重新缩放到 [0,1] 范围内。也称为最小-最大缩放。
标准化将数据重新调整为具有 0 的均值 (μ) 和 1.So 的标准偏差 (σ),它给出了一个正态图。
示例如下:
另一个例子:
在上图中,您可以看到我们的实际数据(绿色)分布在 b/w 1 到 6,标准化数据(红色)分布在 -1 到 3 左右,而标准化数据(蓝色) ) 分布在 0 到 1 左右。
通常许多算法要求您在作为参数传递之前先 standardise/normalise 数据。就像在 PCA 中一样,我们通过将 3D 数据绘制成 1D(比方说)来进行降维。这里我们需要标准化。
但是在图像处理中,需要在处理之前对像素进行归一化处理。
但是在规范化过程中,我们丢失了异常值(极端数据点——要么太低要么太高),这是一个小缺点。
所以这取决于我们的偏好,但我们最推荐标准化,因为它给出了一条正态曲线。
None 提到的变换对线性回归很重要,因为这些都是仿射变换。
发现的系数会发生变化,但解释的方差最终将保持不变。因此,从线性回归的角度来看,异常值仍然是异常值(杠杆点)。
而且这些转换也不会改变分布。分布的形状保持不变。
很多人交替使用规范化和标准化。目的保持不变是将特征带入相同的比例。该方法是从最小值或平均值中减去每个值,然后分别除以最大值减去最小值或 SD。您可以观察到的区别是,当使用最小值时,您将获得所有值 + ve 和平均值,您将获得 bot + ve 和 -ve 值。这也是决定使用哪种方法的因素之一。
我正在使用线性回归来预测数据。但是,当我标准化 (Vs) 标准化变量时,我得到了完全不同的结果。
归一化 = x -xmin/ xmax – xmin 零分标准化 = x - xmean/ xstd
a) Also, when to Normalize (Vs) Standardize ?
b) How Normalization affects Linear Regression?
c) Is it okay if I don't normalize all the attributes/lables in the linear regression?
谢谢, 桑托什
这是有道理的,因为规范化和标准化做不同的事情。
归一化将您的数据转换为 0 到 1 之间的范围
标准化会转换您的数据,使生成的分布的均值为 0,标准差为 1
Normalization/standardization 旨在实现类似的目标,即创建彼此具有相似范围的特征。我们希望如此,这样我们就可以确定我们正在捕获特征中的真实信息,并且我们不会仅仅因为某个特定特征的值比其他特征大得多就过度权衡它。
如果您的所有特征都在彼此相似的范围内,那么就没有必要 standardize/normalize。但是,如果某些特征自然地具有比其他特征多 larger/smaller 的值,则 normalization/standardization 被称为
如果您要规范化至少一个 variable/feature,我也会对所有其他人做同样的事情
请注意,结果不一定如此不同。您可能只需要为这两个选项设置不同的超参数即可获得相似的结果。
理想的做法是测试最适合您的问题的方法。如果您出于某种原因负担不起,大多数算法可能会从标准化中受益,而不是从规范化中受益。
请参阅 here 了解何时应优先选择另一个的示例:
For example, in clustering analyses, standardization may be especially crucial in order to compare similarities between features based on certain distance measures. Another prominent example is the Principal Component Analysis, where we usually prefer standardization over Min-Max scaling, since we are interested in the components that maximize the variance (depending on the question and if the PCA computes the components via the correlation matrix instead of the covariance matrix; but more about PCA in my previous article).
However, this doesn’t mean that Min-Max scaling is not useful at all! A popular application is image processing, where pixel intensities have to be normalized to fit within a certain range (i.e., 0 to 255 for the RGB color range). Also, typical neural network algorithm require data that on a 0-1 scale.
与标准化相比,规范化的一个缺点是它丢失了数据中的一些信息,尤其是关于离群值的信息。
同样在链接页面上,有这张图片:
如您所见,缩放会将所有数据非常靠近地聚集在一起,这可能不是您想要的。它可能会导致梯度下降等算法需要更长的时间才能收敛到与标准化数据集相同的解决方案,甚至可能无法实现。
“标准化变量”没有任何意义。正确的术语是“标准化/缩放特征”。如果您要规范化或缩放一个功能,您应该对其余功能执行相同的操作。
第一个问题是为什么我们需要 Normalisation/Standardisation?
=> 我们以数据集为例,其中我们有工资变量和年龄变量。 年龄范围可以从 0 到 90,其中薪水可以从 2.5 万到 25 万。
我们比较两个人的差异,然后年龄差异将在 100 以下的范围内,而工资差异将在数千的范围内。
因此,如果我们不希望一个变量支配另一个变量,那么我们可以使用规范化或标准化。现在年龄和薪水都将处于同一比例 但是当我们使用标准化或规范化时,我们会丢失原始值并将其转换为某些值。因此,当我们想从我们的数据中得出推论时,解释的损失非常重要。
归一化将值重新缩放到 [0,1] 范围内。也称为最小-最大缩放。
标准化将数据重新调整为具有 0 的均值 (μ) 和 1.So 的标准偏差 (σ),它给出了一个正态图。
示例如下:
另一个例子:
在上图中,您可以看到我们的实际数据(绿色)分布在 b/w 1 到 6,标准化数据(红色)分布在 -1 到 3 左右,而标准化数据(蓝色) ) 分布在 0 到 1 左右。
通常许多算法要求您在作为参数传递之前先 standardise/normalise 数据。就像在 PCA 中一样,我们通过将 3D 数据绘制成 1D(比方说)来进行降维。这里我们需要标准化。
但是在图像处理中,需要在处理之前对像素进行归一化处理。 但是在规范化过程中,我们丢失了异常值(极端数据点——要么太低要么太高),这是一个小缺点。
所以这取决于我们的偏好,但我们最推荐标准化,因为它给出了一条正态曲线。
None 提到的变换对线性回归很重要,因为这些都是仿射变换。
发现的系数会发生变化,但解释的方差最终将保持不变。因此,从线性回归的角度来看,异常值仍然是异常值(杠杆点)。
而且这些转换也不会改变分布。分布的形状保持不变。
很多人交替使用规范化和标准化。目的保持不变是将特征带入相同的比例。该方法是从最小值或平均值中减去每个值,然后分别除以最大值减去最小值或 SD。您可以观察到的区别是,当使用最小值时,您将获得所有值 + ve 和平均值,您将获得 bot + ve 和 -ve 值。这也是决定使用哪种方法的因素之一。