机器学习数据预处理背后的直觉
Intuition behind data preprocessing in ML
我正在学习 CS231n 以了解神经网络的基础知识。
附上Justin(导师)的幻灯片,其中给出了为什么需要数据预处理的原因,我没有完全理解。给出的解释与幻灯片上给出的解释类似,但我不明白。幻灯片在下面。
我的第二个问题是:它实际上是规范化还是标准化?这个 link 暗示它是 standardisation, whereas the course material says it is normalisation.
任何帮助将不胜感激。
A) "less sensitive to small changes in weights"的含义很容易形象化。想象一下对绘制的超平面的权重进行一点改变,即旋转一点。如果样本位于原点附近,您会注意到它们仍然可以被正确分类。如果它们远离原点,权重的同样小的变化将导致更大的错误分类。
B) 有时可以互换使用标准化和规范化。
标准化:我引用 Bishop 的机器学习和模式识别:"For the purposes of this example, we have made a linear re-scaling of the data, known as standardizing, such that each of the variables has zero mean and unit standard deviation."
规范化 可以是例如当您将所有特征值缩放到 [0,1] 范围时进行最小-最大归一化,或者当您将特征向量除以其模数时进行特征向量归一化。
我正在学习 CS231n 以了解神经网络的基础知识。
附上Justin(导师)的幻灯片,其中给出了为什么需要数据预处理的原因,我没有完全理解。给出的解释与幻灯片上给出的解释类似,但我不明白。幻灯片在下面。
我的第二个问题是:它实际上是规范化还是标准化?这个 link 暗示它是 standardisation, whereas the course material says it is normalisation.
任何帮助将不胜感激。
A) "less sensitive to small changes in weights"的含义很容易形象化。想象一下对绘制的超平面的权重进行一点改变,即旋转一点。如果样本位于原点附近,您会注意到它们仍然可以被正确分类。如果它们远离原点,权重的同样小的变化将导致更大的错误分类。
B) 有时可以互换使用标准化和规范化。
标准化:我引用 Bishop 的机器学习和模式识别:"For the purposes of this example, we have made a linear re-scaling of the data, known as standardizing, such that each of the variables has zero mean and unit standard deviation."
规范化 可以是例如当您将所有特征值缩放到 [0,1] 范围时进行最小-最大归一化,或者当您将特征向量除以其模数时进行特征向量归一化。