处理回归（机器学习）中特征的未分配（空）值？

Handling unassigned (null) values of features in regression (machine learning)?

我想做线性回归分析。我有多个功能。某些功能具有数据中某些项目的未分配（空）值。因为对于某些项目，数据源中缺少某些特定的特征值。为了更清楚，我提供示例：

如您所见，某些项目缺少某些功能的值。目前，我只是将它分配给'Null'，但是在对数据进行线性回归分析时如何处理这个值呢？我不希望这个未分配的值错误地影响回归模型。不幸的是，我无法摆脱出现未分配特征值的项目。我计划使用 Python 进行回归。

您需要忽略这些行——您已经说过您不能，而且缺少值的数量不是一个好主意——或者使用一种算法主动对这些项目打折，或者估算（这是填写有根据的猜测的技术术语）缺失的数据。

我们能提供的帮助有限，因为您没有为我们提供缺失数据所需的语义。您可以通过使用您最喜欢的 "closest match" 算法对您已有的数据来估算一些缺失值。例如，您很可能能够从其他数据中推断出一个很好的面积猜测。

对于非线性的、离散的项目（即 District），您可能希望将 NULL 保留为一个单独的 District。如果你的遗漏条目足够少，你无论如何都能得到一个像样的模型。

一个简单的插补是用特征的平均值替换每个 NULL，但这仅适用于具有适当平均值的那些（即 not 区）。

总的来说，我建议您在 "impute missing data" 上搜索合适的参考资料。由于我们不确定您的需求，因此我们对此无能为力，这样做超出了 SO 的范围。