在 pandas 数据框中排序列

Question

我需要创建一个数据框，过滤掉“国籍”列中列出的五个最常出现的国家以及它们列出的总次数。我一直在尝试使用 groupby，但没有成功。我用过的代码

df.groupby(['Nationality']).sum()

我还需要确定被列为参与该计划的人中至少有多少人有过一次推荐。不过我也不确定这个代码。

Answer 1

过滤掉国籍在前 5 位的行：

df[df['Nationality'].isin(df['Nationality'].value_counts().index[:6]) == False]

通过查看 df 的形状来查看它们被列出的次数，其中行包含排在前 5 位的国籍：

df[df['Nationality'].isin(df['Nationality'].value_counts().index[:6])].shape

查看 Number_of_Referalls 中有多少百分比的值 > 或 = 为 1 的快速方法：

(df['Number_of_Referalls '] >= 1).value_counts(normalize=True) * 100

Ordering a column in pandas dataframe