列中相应值的 NaN 值百分比
Percentage of NaN values for corresponding Values in Column
Python菜鸟在此
有两列; 'Project Number'(项目 1、项目 2、项目 3...等)和 'Date Expected'(DD/MM/YYYY)和很多 'Date Expected' 值都是 NaN,我想计算每个项目编号的 NaN 百分比,即项目 1 有 29% NaN,项目 2 为 55%,项目 3 为 40%,等等
我知道您可以使用下面的代码获取单个列的百分比,但我正在努力弄清楚如何执行上述操作?
df['Date Expected'].value_counts(normalize=True)*100
在此先感谢您的帮助
尝试:
nan_pers = df.groupby("Project Number")["Date Expected"]\
.value_counts(normalize=True, dropna=False)\
.reset_index(level="Date Expected", name="NaN percentage") * 100
nan_pers = nan_pers[nan_pers["Date Expected"].isna()].drop(columns="Date Expected")
将 dropna=False
传递给 value_counts
表示它也应该报告 NaN
的计数。然后我们有一个多索引数据框,所以我们在 "Date Expected"
级别 reset_index
并将其值(标准化计数)重命名为 NaN percentage
并且它自己成为一列。在第二行中,我们将非 NaN
值与具有唯一 Date Expected
值的列一起删除,因此我们留下了类似
的结构
NaN percentage
Project Number
Project 1 50.0
Project 2 20.0
Project 3 40.0
Python菜鸟在此
有两列; 'Project Number'(项目 1、项目 2、项目 3...等)和 'Date Expected'(DD/MM/YYYY)和很多 'Date Expected' 值都是 NaN,我想计算每个项目编号的 NaN 百分比,即项目 1 有 29% NaN,项目 2 为 55%,项目 3 为 40%,等等
我知道您可以使用下面的代码获取单个列的百分比,但我正在努力弄清楚如何执行上述操作?
df['Date Expected'].value_counts(normalize=True)*100
在此先感谢您的帮助
尝试:
nan_pers = df.groupby("Project Number")["Date Expected"]\
.value_counts(normalize=True, dropna=False)\
.reset_index(level="Date Expected", name="NaN percentage") * 100
nan_pers = nan_pers[nan_pers["Date Expected"].isna()].drop(columns="Date Expected")
将 dropna=False
传递给 value_counts
表示它也应该报告 NaN
的计数。然后我们有一个多索引数据框,所以我们在 "Date Expected"
级别 reset_index
并将其值(标准化计数)重命名为 NaN percentage
并且它自己成为一列。在第二行中,我们将非 NaN
值与具有唯一 Date Expected
值的列一起删除,因此我们留下了类似
NaN percentage
Project Number
Project 1 50.0
Project 2 20.0
Project 3 40.0