您会在聚类项目中删除缺失值处理的特征或值吗？

Will you drop features or values for missing value handling in clustering project?

假设您有 100 多个列，大约 90% 的特征有大约 20% 的缺失值。总数据集大约有 10000 多行。您会通过最频繁的值来估算分类的缺失值，还是只是简单地删除缺失值？正如我发现插补后的 PCA 图是两条垂直线，可能是因为插补。删除这些功能后，情节看起来很正常（四处散布）。你有什么建议吗？谢谢。

这真的取决于数据，一个好的可能解决方案是用每个特征的平均值（或中值）填充缺失值。如果您的数据针对明显的异常值进行了清理并进行了缩放，那么应该不会对它们产生太大影响。

另一种可能的解决方案是确定每个元素的 k 个最近的邻居，并使用它们的平均值或中值来填充行中缺失的列。请记住维度诅咒会对这种方法产生负面影响