预处理数据:归一化回归中的数据标签?
Pre-processing data: Normalizing data labels in regression?
最近有人告诉我回归数据的标签也应该标准化以获得更好的结果,但我对此表示怀疑。我从未尝试过在回归和分类中对标签进行归一化,这就是为什么我不知道该状态是否为真。你能给我一个关于这个问题的明确解释(数学上或经验上的)吗?
非常感谢。
任何帮助将不胜感激。
当你说 "normalize" 标签时,你的意思并不清楚(即你是指统计意义上的还是其他意思)。你能举个例子吗?
关于在数据分析中使标签统一
如果您尝试整理标签以便与 text()
函数一起使用,您可以尝试使用 abbreviate()
函数来缩短它们,或者使用 format()
函数来更好地对齐它们。
pretty()
函数适用于绘图轴上的舍入标签。例如,用于绘制直方图的基本函数 hist()
调用 Sturges 或其他算法,然后使用 pretty()
选择合适的 bin 大小。
scale()
函数将通过减去平均值并除以标准差来标准化值,这在某些圈子中称为归一化。
关于回归中缩放的原因(回应提问者的评论)。假设您在协变量 X1、X2、... 上对 Y 进行回归。缩放协变量 Xk 的原因取决于上下文。它可以比较每个协变量的系数(效果大小)。它可以帮助确保数值准确性(如今通常不是问题,除非协变量在非常不同的尺度 and/or 数据很大)。有关可读的介绍,请参阅 Psychosomatic medicine editors' guide. For a mathematically intense discussion see Sylvain Sardy's guide.
特别是,在贝叶斯回归中,建议重新缩放以确保 MCMC 估计的收敛;例如参见 this discussion。
你指的是特征而不是标签。
没有必要为回归或分类规范化你的特征,尽管在某些情况下,这是一个可以帮助更快收敛的技巧。您可能需要查看 this post.
根据我的经验,当使用像线性回归这样只有几个变量的简单模型时,最好保持特征原样(没有归一化),因为模型更易于解释。
您的意思可能是您应该缩放您的标签。原因是收敛速度更快,并且不会出现数值不稳定。
例如,如果您的标签在 (1000, 1000000) 范围内并且权重初始化接近于零,则 mse 损失会很大,您可能会得到 NaN 错误。
有关类似讨论,请参阅 https://datascience.stackexchange.com/q/22776/38707。
对于包括决策树或逻辑回归和线性回归在内的算法的回归问题,我在两种模式下进行了测试:1- 使用 MinMaxScaler 进行标签缩放 2- 没有标签缩放 我得到的结果是:r2 分数相同在 2 模式 mse 和 mae 尺度
对于使用线性回归的糖尿病数据集,前后的结果是
无缩放:
Mean Squared Error: 3424.3166
Mean Absolute Error: 46.1742
R2_score : 0.33
缩放标签后:
Mean Squared Error: 0.0332
Mean Absolute Error: 0.1438
R2_score : 0.33
下面的 link 也很有用,表示缩放有助于快速收敛输入 scale or not scale labels in deep leaning?
最近有人告诉我回归数据的标签也应该标准化以获得更好的结果,但我对此表示怀疑。我从未尝试过在回归和分类中对标签进行归一化,这就是为什么我不知道该状态是否为真。你能给我一个关于这个问题的明确解释(数学上或经验上的)吗?
非常感谢。 任何帮助将不胜感激。
当你说 "normalize" 标签时,你的意思并不清楚(即你是指统计意义上的还是其他意思)。你能举个例子吗?
关于在数据分析中使标签统一
如果您尝试整理标签以便与 text()
函数一起使用,您可以尝试使用 abbreviate()
函数来缩短它们,或者使用 format()
函数来更好地对齐它们。
pretty()
函数适用于绘图轴上的舍入标签。例如,用于绘制直方图的基本函数 hist()
调用 Sturges 或其他算法,然后使用 pretty()
选择合适的 bin 大小。
scale()
函数将通过减去平均值并除以标准差来标准化值,这在某些圈子中称为归一化。
关于回归中缩放的原因(回应提问者的评论)。假设您在协变量 X1、X2、... 上对 Y 进行回归。缩放协变量 Xk 的原因取决于上下文。它可以比较每个协变量的系数(效果大小)。它可以帮助确保数值准确性(如今通常不是问题,除非协变量在非常不同的尺度 and/or 数据很大)。有关可读的介绍,请参阅 Psychosomatic medicine editors' guide. For a mathematically intense discussion see Sylvain Sardy's guide.
特别是,在贝叶斯回归中,建议重新缩放以确保 MCMC 估计的收敛;例如参见 this discussion。
你指的是特征而不是标签。
没有必要为回归或分类规范化你的特征,尽管在某些情况下,这是一个可以帮助更快收敛的技巧。您可能需要查看 this post.
根据我的经验,当使用像线性回归这样只有几个变量的简单模型时,最好保持特征原样(没有归一化),因为模型更易于解释。
您的意思可能是您应该缩放您的标签。原因是收敛速度更快,并且不会出现数值不稳定。
例如,如果您的标签在 (1000, 1000000) 范围内并且权重初始化接近于零,则 mse 损失会很大,您可能会得到 NaN 错误。
有关类似讨论,请参阅 https://datascience.stackexchange.com/q/22776/38707。
对于包括决策树或逻辑回归和线性回归在内的算法的回归问题,我在两种模式下进行了测试:1- 使用 MinMaxScaler 进行标签缩放 2- 没有标签缩放 我得到的结果是:r2 分数相同在 2 模式 mse 和 mae 尺度
对于使用线性回归的糖尿病数据集,前后的结果是
无缩放:
Mean Squared Error: 3424.3166
Mean Absolute Error: 46.1742
R2_score : 0.33
缩放标签后:
Mean Squared Error: 0.0332
Mean Absolute Error: 0.1438
R2_score : 0.33
下面的 link 也很有用,表示缩放有助于快速收敛输入 scale or not scale labels in deep leaning?