缺失数据如何处理?信息将用于数据可视化

How to deal with missing data? Info will be used for data visualization

大家都是怎么处理dataframe中的缺失值的?我使用人口普查网 Api 创建了一个数据框来获取数据。 'GTCBSA' 变量提供了我将其用于(绘图和破折号)所需的城市信息,我发现数据中有很多缺失值。我是否只是将其留空并继续我的数据可视化?以下是我的变量

2004 年的示例数据 = https://api.census.gov/data/2004/cps/basic/jun?get=GTCBSA,PEFNTVTY&for=state:*

变量说明=https://api.census.gov/data/2022/cps/basic/jan/variables/GTCBSA.json

dealing with missing data 有不同的方法,具体取决于用例和缺失数据的类型。例如,对于具有一些缺失值的 near-continuous 时间序列信号数据流,您可以尝试通过执行某种类型的插值(例如线性插值)来根据附近的值填充缺失值。

但是,在您的情况下,缺失值是城市,并且行都是独立的(每一行都是不同的受访者)。据我所知,您没有任何方法可以合理地推断城市缺失的行的城市,因此您必须放弃考虑这些行。

我不是美国人口普查所使用的数据收集方法的专家,但从 this source 来看,似乎使用了多种方法,所以我可以看出这可能是怎么回事受访者所在城市未知(在线工具可能无法获得受访者所在城市,或者受访者可能拒绝说明他们所在的城市)。丢失数据是一个非常普遍的问题。

但是,在删除所有缺少城市的行之前,您可以做一个简短的检查,看看是否存在任何模式(例如,缺少城市的行是否主要来自一个州?)。如果您正在进行任何 state-level 分析,您可以保留缺少城市的行。