如果它是分类变量,如何替换空值?
How to substitute for null values if it is a categorical variable?
我试图为我的数据获取虚拟值,这时我注意到某些值带有“?”作为他们的价值。
由于我的数据中有很多行都有这些值,所以我根本无法删除它们。
在这种情况下,我应该用什么来代替它们?
只是采取类别的模式会有帮助吗?
另外,我试图更换?值与模式。
df1 = df1[df1.workclass == '?'].replace('?',"Private")
但我现在得到一个空 table。
这取决于数据集。有不同的方法适用于不同的特征。有些可能只需要用模式替换。在某些情况下,还会使用不同的 ML 算法和模型,例如随机森林、KNN 等。因此这完全取决于您处理的数据类型。探索数据探索领域。也许this可以帮到你。
您将必须手动检查不同的变量并决定如何处理每个参数的缺失。
例如:您可以删除缺失 >50 pc 的变量,除非它们表明证据权重很高。
有些变量可以用中心趋势代替,也可以预测。
分类可以用 UNK(未知)等替换。
我试图为我的数据获取虚拟值,这时我注意到某些值带有“?”作为他们的价值。 由于我的数据中有很多行都有这些值,所以我根本无法删除它们。 在这种情况下,我应该用什么来代替它们? 只是采取类别的模式会有帮助吗? 另外,我试图更换?值与模式。
df1 = df1[df1.workclass == '?'].replace('?',"Private")
但我现在得到一个空 table。
这取决于数据集。有不同的方法适用于不同的特征。有些可能只需要用模式替换。在某些情况下,还会使用不同的 ML 算法和模型,例如随机森林、KNN 等。因此这完全取决于您处理的数据类型。探索数据探索领域。也许this可以帮到你。
您将必须手动检查不同的变量并决定如何处理每个参数的缺失。 例如:您可以删除缺失 >50 pc 的变量,除非它们表明证据权重很高。 有些变量可以用中心趋势代替,也可以预测。 分类可以用 UNK(未知)等替换。