处理回归(机器学习)中特征的未分配(空)值?
Handling unassigned (null) values of features in regression (machine learning)?
我想做线性回归分析。我有多个功能。某些功能具有数据中某些项目的未分配(空)值。因为对于某些项目,数据源中缺少某些特定的特征值。为了更清楚,我提供示例:
如您所见,某些项目缺少某些功能的值。目前,我只是将它分配给'Null',但是在对数据进行线性回归分析时如何处理这个值呢?我不希望这个未分配的值错误地影响回归模型。不幸的是,我无法摆脱出现未分配特征值的项目。我计划使用 Python 进行回归。
您需要忽略这些行——您已经说过您不能,而且缺少值的数量不是一个好主意——或者使用一种算法主动对这些项目打折,或者估算(这是填写有根据的猜测的技术术语)缺失的数据。
我们能提供的帮助有限,因为您没有为我们提供缺失数据所需的语义。您可以通过使用您最喜欢的 "closest match" 算法对您已有的数据来估算一些缺失值。例如,您很可能能够从其他数据中推断出一个很好的面积猜测。
对于非线性的、离散的项目(即 District),您可能希望将 NULL 保留为一个单独的 District。如果你的遗漏条目足够少,你无论如何都能得到一个像样的模型。
一个简单的插补是用特征的平均值替换每个 NULL,但这仅适用于具有适当平均值的那些(即 not 区)。
总的来说,我建议您在 "impute missing data" 上搜索合适的参考资料。由于我们不确定您的需求,因此我们对此无能为力,这样做超出了 SO 的范围。
我想做线性回归分析。我有多个功能。某些功能具有数据中某些项目的未分配(空)值。因为对于某些项目,数据源中缺少某些特定的特征值。为了更清楚,我提供示例:
如您所见,某些项目缺少某些功能的值。目前,我只是将它分配给'Null',但是在对数据进行线性回归分析时如何处理这个值呢?我不希望这个未分配的值错误地影响回归模型。不幸的是,我无法摆脱出现未分配特征值的项目。我计划使用 Python 进行回归。
您需要忽略这些行——您已经说过您不能,而且缺少值的数量不是一个好主意——或者使用一种算法主动对这些项目打折,或者估算(这是填写有根据的猜测的技术术语)缺失的数据。
我们能提供的帮助有限,因为您没有为我们提供缺失数据所需的语义。您可以通过使用您最喜欢的 "closest match" 算法对您已有的数据来估算一些缺失值。例如,您很可能能够从其他数据中推断出一个很好的面积猜测。
对于非线性的、离散的项目(即 District),您可能希望将 NULL 保留为一个单独的 District。如果你的遗漏条目足够少,你无论如何都能得到一个像样的模型。
一个简单的插补是用特征的平均值替换每个 NULL,但这仅适用于具有适当平均值的那些(即 not 区)。
总的来说,我建议您在 "impute missing data" 上搜索合适的参考资料。由于我们不确定您的需求,因此我们对此无能为力,这样做超出了 SO 的范围。