仅标准化机器学习中的几个选定列
Stanardize only a few selected columns in machine learning
我有一个 CSV 文件,其中只有几列需要规范化(其他是二进制值)。我应该有选择地标准化所需的列还是应该标准化 table 中的所有列?如果我对整个 table 进行归一化,我是否会丢失一些信息或将噪音引入不需要任何归一化或标准化的数据中?
让我们澄清一些要点。
- 二进制数据是分类数据 (IsEmployed - 0/1)
- 只有数值数据需要归一化
理解部分:
- 当我们说归一化数据时,这意味着我们正在移动分布
缩放到 0-1 的范围。
+已添加:
- 从分类数据的角度来看,我们进行 OneHotEncoding 并将其转换回每个类别的二进制数据。
我有一个 CSV 文件,其中只有几列需要规范化(其他是二进制值)。我应该有选择地标准化所需的列还是应该标准化 table 中的所有列?如果我对整个 table 进行归一化,我是否会丢失一些信息或将噪音引入不需要任何归一化或标准化的数据中?
让我们澄清一些要点。
- 二进制数据是分类数据 (IsEmployed - 0/1)
- 只有数值数据需要归一化
理解部分:
- 当我们说归一化数据时,这意味着我们正在移动分布 缩放到 0-1 的范围。
+已添加:
- 从分类数据的角度来看,我们进行 OneHotEncoding 并将其转换回每个类别的二进制数据。