在回归（机器学习）中处理分类特征的未分配（空）值？

Handling unassigned (null) values of categorical features in regression (machine learning)?

我想做线性回归分析。我有多个功能。某些功能具有数据中某些项目的未分配（空）值。对于序数特征（例如 'year' 或 'number of rooms'），我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类特征（例如颜色或区域）？为了更清楚，我提供了示例：

分类类型有几个特点：

Color, material, security, type, district

如何在没有太多复杂插补方法的情况下插补分类特征中的空值？我被建议只保留 "Null" 本身作为一个单独的数据变体。因此，例如 'District' 列 "Null" 将是新的 'district'。对所有那种分类特征使用这种简单的插补是否合理，或者可能或多或少简单且存在更好的插补方法？

是的，您可以使用 NULL 作为分类变量中的新级别。如果您只需要对分类变量进行简单的插补方法，您也可以尝试用该变量的最频繁水平（值）或一些对该数据集合理的简单规则进行插补。