大量缺失数据的分类

Classification with large volume of missing data

当建立一个模型来分类一个学生是否会被特殊项目录取时,主要特征包括,

gender | Ethnicity | State | Zip code | Test score | Education | Job title | Current gpa | Admission

由于是网上收集的数据,很多特征缺失了很多数据。特征 'Test score' 应该对录取决定很重要,但它遗漏了大约 80%。似乎插补不切实际。

应该保留它作为一个特征并使用EM或贝叶斯网络,SVM那些对缺失数据不敏感的算法,还是在构建模型时直接去除这个特征?有什么建议吗?

您应该删除该功能。考试成绩不能仅用 20% 的分数来平均。也不能添加具有分布的随机值,因为它们是测试分数。

您可以尝试用包含这些值的行构建模型,看看它是否有效。