大量缺失数据的分类

Question

当建立一个模型来分类一个学生是否会被特殊项目录取时，主要特征包括，

gender | Ethnicity | State | Zip code | Test score | Education | Job title | Current gpa | Admission

由于是网上收集的数据，很多特征缺失了很多数据。特征 'Test score' 应该对录取决定很重要，但它遗漏了大约 80%。似乎插补不切实际。

应该保留它作为一个特征并使用EM或贝叶斯网络，SVM那些对缺失数据不敏感的算法，还是在构建模型时直接去除这个特征？有什么建议吗？

Answer 1

您应该删除该功能。考试成绩不能仅用 20% 的分数来平均。也不能添加具有分布的随机值，因为它们是测试分数。

您可以尝试用包含这些值的行构建模型，看看它是否有效。

Classification with large volume of missing data