Python:机器学习没有输入缺失数据
Python: machine learning without imputing missing data
我目前正在处理一个非常特殊的数据集:它有大约 1000 列和 100 万行,但大约 90% 的值是 Nan。
这不是因为记录不好,而是因为数据代表了对个人的测量,每个人只有大约 100 个特征相关。因此,估算缺失值会完全破坏数据中的信息。
将具有相同特征的个体组合在一起并且只考虑与每个子组相关的列也不容易,因为这实际上会为每组列产生极小的组(几乎任何填充的组合列对于给定的个人是可能的)。
问题是,scikit 学习降维方法无法处理缺失值。是否有一个包可以,或者我应该使用不同的方法并跳过降维?
我
您可以使用梯度增强包来处理缺失值,并且非常适合您的 case.Since 您在 R 中要求的包 gbm 和 python 中的 xgboost 可以是您想要的 used.If了解如何在 xgboost 中自动处理缺失值,请阅读 this paper 的第 3.4 节以深入了解。
我目前正在处理一个非常特殊的数据集:它有大约 1000 列和 100 万行,但大约 90% 的值是 Nan。 这不是因为记录不好,而是因为数据代表了对个人的测量,每个人只有大约 100 个特征相关。因此,估算缺失值会完全破坏数据中的信息。
将具有相同特征的个体组合在一起并且只考虑与每个子组相关的列也不容易,因为这实际上会为每组列产生极小的组(几乎任何填充的组合列对于给定的个人是可能的)。
问题是,scikit 学习降维方法无法处理缺失值。是否有一个包可以,或者我应该使用不同的方法并跳过降维? 我
您可以使用梯度增强包来处理缺失值,并且非常适合您的 case.Since 您在 R 中要求的包 gbm 和 python 中的 xgboost 可以是您想要的 used.If了解如何在 xgboost 中自动处理缺失值,请阅读 this paper 的第 3.4 节以深入了解。