使用初始特征名称进行规范化会添加具有相同名称的第二个特征

Question

我正在将 ml.net 用于一个小项目并尝试规范化。我可以通过两种方式进行规范化，保留原始特征列名称或定义新列（第二行代码）。

dataProcessPipelineTransformations = dataProcessPipelineTransformations.Append(mlContext.Transforms.NormalizeMinMax(featureSet.FeatureName, fixZero: false));
dataProcessPipelineTransformations = dataProcessPipelineTransformations.Append(mlContext.Transforms.NormalizeMinMax("normalizedFeature", featureSet.FeatureName, fixZero: false));

如果我使用初始特征名称，我发现 ml.net 添加了第二个具有相同名称的列。

我在问自己，为什么框架知道，两个列中的哪一个应该用于训练？它总是与规范化数据 (IsNormalized) 一起使用吗？

谢谢你清理了这个东西，我没有找到任何关于这个行为的文档。

此致弗洛奇

Answer 1

如果您检查 DataViewSchema.Column，您会注意到有一个布尔标志 IsHidden。当您将转换结果输出到具有相同名称的列时，新列的类型和值将用于下游操作。旧列已隐藏，因此无法再通过名称访问。因此，如果您需要在规范化之前访问数据，建议输出到具有不同名称的列。

使用初始特征名称进行规范化会添加具有相同名称的第二个特征

Normalizing using inital feature name adds second feature with same name

c#

ml.net