您会在聚类项目中删除缺失值处理的特征或值吗?

Will you drop features or values for missing value handling in clustering project?

假设您有 100 多个列,大约 90% 的特征有大约 20% 的缺失值。总数据集大约有 10000 多行。您会通过最频繁的值来估算分类的缺失值,还是只是简单地删除缺失值?正如我发现插补后的 PCA 图是两条垂直线,可能是因为插补。删除这些功能后,情节看起来很正常(四处散布)。你有什么建议吗?谢谢。

这真的取决于数据,一个好的可能解决方案是用每个特征的平均值(或中值)填充缺失值。如果您的数据针对明显的异常值进行了清理并进行了缩放,那么应该不会对它们产生太大影响。

另一种可能的解决方案是确定每个元素的 k 个最近的邻居,并使用它们的平均值或中值来填充行中缺失的列。请记住维度诅咒会对这种方法产生负面影响