主成分分析

Principle Component Analysis

我正在研究主成分分析,我刚刚了解到在将PCA应用于数据样本之前,我们必须进行两个预处理步骤,即mean normalizationfeature scaling。但是,我不知道均值归一化是什么以及如何实现它。

起初我搜索过;但是,我找不到有启发性的解释。有没有人可以解释什么是均值归一化以及如何实现它?

假设有一个数据集具有 'd' 个特征(列)和 'n' 个观测值(行)。为简单起见,让我们考虑 d=2 和 n=100。这意味着现在您的数据集有 2 个特征和 100 个观察值。 换句话说,现在您的数据集是一个具有 100 行和 2 列的二维数组 - (100x2)。 最初,当您对其进行可视化时,您可以看到这些点散布在二维空间中。

当您标准化数据集并对其进行可视化时,您实际上可以看到所有点都已向原点移动。换句话说,所有观察点的均值为0,标准差为1。这个过程称为标准化。

你如何标准化..? 它非常简单。公式很简单。

z = (X - u) / s

Where, 

X - an observation in the feature column
u - mean of the feature column
s - standard deviation of the feature column

注意:您必须对数据集中的所有特征应用标准化

参考:

https://machinelearningmastery.com/normalize-standardize-machine-learning-data-weka/

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html