在特征选择中,我遇到了用列值的中值填充 NaN 的情况
In feature selection, I came across a situation where NaN were filled by median of the column values
为什么 NaN 使用中值?为什么不是别的意思呢?使用中值的逻辑是什么?
您描述的过程称为 imputation。用均值或中位数来估算缺失值是否有意义完全取决于数据集和问题的上下文。
通常,用平均值来估算缺失值并没有坏处。但是,如果数据集中存在对均值产生不利影响的异常值,那么用中位数 进行估算可能是个好主意,因为中位数是一个不受数据集中存在异常值。
为什么 NaN 使用中值?为什么不是别的意思呢?使用中值的逻辑是什么?
您描述的过程称为 imputation。用均值或中位数来估算缺失值是否有意义完全取决于数据集和问题的上下文。
通常,用平均值来估算缺失值并没有坏处。但是,如果数据集中存在对均值产生不利影响的异常值,那么用中位数 进行估算可能是个好主意,因为中位数是一个不受数据集中存在异常值。