在回归(机器学习)中处理分类特征的未分配(空)值?
Handling unassigned (null) values of categorical features in regression (machine learning)?
我想做线性回归分析。我有多个功能。某些功能具有数据中某些项目的未分配(空)值。对于序数特征(例如 'year' 或 'number of rooms'),我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类特征(例如颜色或区域)?
为了更清楚,我提供了示例:
分类类型有几个特点:
Color, material, security, type, district
如何在没有太多复杂插补方法的情况下插补分类特征中的空值?我被建议只保留 "Null" 本身作为一个单独的数据变体。因此,例如 'District' 列 "Null" 将是新的 'district'。对所有那种分类特征使用这种简单的插补是否合理,或者可能或多或少简单且存在更好的插补方法?
是的,您可以使用 NULL 作为分类变量中的新级别。如果您只需要对分类变量进行简单的插补方法,您也可以尝试用该变量的最频繁水平(值)或一些对该数据集合理的简单规则进行插补。
我想做线性回归分析。我有多个功能。某些功能具有数据中某些项目的未分配(空)值。对于序数特征(例如 'year' 或 'number of rooms'),我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类特征(例如颜色或区域)?
为了更清楚,我提供了示例:
分类类型有几个特点:
Color, material, security, type, district
如何在没有太多复杂插补方法的情况下插补分类特征中的空值?我被建议只保留 "Null" 本身作为一个单独的数据变体。因此,例如 'District' 列 "Null" 将是新的 'district'。对所有那种分类特征使用这种简单的插补是否合理,或者可能或多或少简单且存在更好的插补方法?
是的,您可以使用 NULL 作为分类变量中的新级别。如果您只需要对分类变量进行简单的插补方法,您也可以尝试用该变量的最频繁水平(值)或一些对该数据集合理的简单规则进行插补。