计算列中值的百分位数

Question

我有一个数据框，其中有一列具有数值。此列未很好地近似于正态分布。给定另一个不在该列中的数值，我如何计算它在该列中的百分位数？也就是说，如果该值大于列中值的 80% 但小于其他 20%，它将位于第 20 个百分位。

Answer 1

对列进行排序，查看该值是否在前 20% 或任何百分位数内。

例如：

def in_percentile(my_series, val, perc=0.2): 
    myList=sorted(my_series.values.tolist())
    l=len(myList)
    return val>myList[int(l*perc)]

或者，如果您想要实际的百分位数，只需使用 searchsorted:

my_series.values.searchsorted(val)/len(my_series)*100

Answer 2

要找到一个值相对于数组（或者在您的情况下是数据框列）的百分位数，请使用 scipy 函数 stats.percentileofscore()。

例如，如果我们有一个值 x（不在数据框中的另一个数值）和一个引用数组 arr（数据框中的列），我们可以找到x 的百分位数：

from scipy import stats
percentile = stats.percentileofscore(arr, x)

请注意，stats.percentileofscore() 函数的第三个参数对百分位数的结果值有重大影响，即。 kind。您可以选择 rank、weak、strict 和 mean。有关详细信息，请参阅 docs。

差异示例：

>>> df
   a
0  1
1  2
2  3
3  4
4  5

>>> stats.percentileofscore(df['a'], 4, kind='rank')
80.0

>>> stats.percentileofscore(df['a'], 4, kind='weak')
80.0

>>> stats.percentileofscore(df['a'], 4, kind='strict')
60.0

>>> stats.percentileofscore(df['a'], 4, kind='mean')
70.0

最后一点，如果您有一个值大于列中其他值的 80%，则它将位于第 80 个百分位（请参阅上面的示例，了解 kind 方法的工作原理影响这个最终分数）而不是第 20 个百分位数。有关详细信息，请参阅 this Wikipedia article。

Answer 3

由于您正在寻找值 over/under 一个特定的阈值，您可以考虑使用 pandas qcut 功能。如果您想要低于 20% 和高于 80% 的值，请将您的数据分成 5 个大小相等的分区。每个分区将代表 20% "chunk" 大小相等（五个 20% 的分区是 100%）。因此，给定一个包含 1 列 'a' 的 DataFrame，它代表您拥有数据的列：

df['newcol'] = pd.qcut(df['a'], 5, labels=False)

这将为您的 DataFrame 提供一个新列，每行的值在 (0, 1, 2, 3, 4) 中。其中 0 代表最低的 20%，4 代表最高的 20%，即 80% 的百分位数。

Answer 4

可能很晚但仍然

df['column_name'].describe()

将为您提供常规的 25、50 和 75 百分位数以及一些额外数据但是如果你特别想要某些特定值的百分位数，那么

df['column_name'].describe(percentiles=[0.1, 0.2, 0.3, 0.5])

这将为您提供第 10、20、30 和 50 个百分位数。您可以提供任意数量的值。

计算列中值的百分位数

Calculate percentile of value in column

python

statistics

distribution

pandas