PANDAS 根据我们的提问方式分位数不同的答案

PANDAS Quantiles different answer depending on how we ask it

两天前的新问题。

当您拥有大量数据时,PANDAS 可以让您在生成统计信息的同时就地过滤内容,因此您不必为所有内容创建新的数据框。现在,我怀疑这样做有细微差别,因为以两种不同的方式做事——一种是 'smart' 方式,一种是 'explicit' 方式,给了我非常不同的答案,一种显然是正确的(明确的),一个显然是错误的(聪明的方式)。

谁能指出我所缺少的方向。

这是详细信息。

我有 250 万行数据,描述了一系列不同设备类型的故障时间。其中两个的描述性统计数据如下。 (请注意,这些实际上是挖矿设备,但我必须清理一些东西,所以我已经替换了名称)。

                                   Count        Min        Mean          Max
CC_CauseLocationEquipmentType                                           
Coffee Machines                    204136  0.000556   71.797146  23407.41667
Blenders                            52424  0.008333  750.880591  23077.79167

如果我尝试获取设备故障时间的分位数,使用

print(df2.groupby("CC_CauseLocationEquipmentType").quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999]))

然后我看到以下分位数。

                                            CC_TBF
CC_CauseLocationEquipmentType                     
Coffee Machines               0.10000     0.005556
                              0.25000     0.238889
                              0.50000     1.775000
                              0.75000     2.595833
                              0.90000     4.611389
                              0.95000     7.008125
                              0.99000    15.465278
                              0.99999    21.089619    <-- Nowhere near the max of 23407.41667
Blenders                      0.10000    57.731806
                              0.25000   394.004375
                              0.50000     0.288889
                              0.75000     7.201528
                              0.90000    51.015667
                              0.95000    83.949833
                              0.99000   123.148019
                              0.99999   133.708716    <-- Nowhere near the max of 23077.79167

这显然是不正确的,因为 99.999% 的分位数与这些设备类型的最大值相去甚远。 还要注意 'reset' Blender 分位数数据集的中途。我之前问过这个问题 Pandas quantiles misbehaving by... getting smaller partway through a range of percentiles? 这仍然没有解决,但我认为这个新问题也将有助于解决那个问题。

当我单独考虑分位数时,我得到了更合理的结果。使用以下代码:

print("Quantiles - type by type - Coffee Machines")
df3=df2.loc[df2['CC_CauseLocationEquipmentType'] == "Coffee Machines"]
print(df3.quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999]) )

print("Quantiles - type by type - Blenders")
df3=df2.loc[df2['CC_CauseLocationEquipmentType'] == "Blenders"]
print(df3.quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999]) )

我现在得到:

Quantiles - type by type - Coffee Machines
               CC_TBF
0.10000      0.120556
0.25000      0.608333
0.50000      2.040556
0.75000      3.494514
0.90000     18.047917
0.95000    129.798403
0.99000   1644.764861
0.99999  23003.517729   <-- Pretty darn close to the max of 23407
Quantiles - type by type - Blenders
               CC_TBF
0.10000      0.226111
0.25000      0.941667
0.50000     37.924167
0.75000    388.554444
0.90000   1955.252500
0.95000   4301.835320
0.99000  11362.310594
0.99999  22831.372845   <--- pretty darn close to the max of 23077

谁能告诉我为什么这两种不同的方法会产生如此不同的结果,为什么我使用 groupby 会得到如此奇怪、看似武断的结果? groupby 是否以某种方式使用了与我在第二种 "explicit" 方法中所做的不同的完整数据子集?

非常有趣。至少在我使用 df.groupby(...).quantile(<array-like>) 的 Pandas (0.25.1) 版本中显然存在一个错误。 codepath is different 甚至在非常简单的示例中似乎也被打破了,例如:

df = pd.DataFrame(
    {"A": [0., 0., 0.], "B": ["X", "Y", "Z"]}
)
result = df.groupby("B").quantile([0.5, 0.9])

虽然它适用于 2 元素版本:

df = pd.DataFrame(
    {"A": [0., 0.], "B": ["X", "Y"]}
)
result = df.groupby("B").quantile([0.5, 0.9])

我会避免在类似数组的对象上使用 groupby 和分位数,直到代码被修复,即使在它现在可以工作的情况下也是如此,因为它很可能容易出错。

Blame 还显示了很多相当新鲜的更新(10 个月、16 个月)也正是处理这些代码片段。

在@alexander-pivovarov 的回答中,您在两个示例中都看不到分位数在起作用。只有零,每个组只有一个元素,所以结果总是零。还是我错了?

我有 pandas 0.25.3 并获得了

的有用结果
import pandas as pd

df = pd.DataFrame(
    {"A": [1., 2., 3., 4., 5., 6.], "B": ["X", "X", "Y", "Y", "Z", "Z"]}
)
result = df.groupby("B").quantile([0.5, 0.9])
print(result)

输出:

        A
B         
X 0.5  1.5
  0.9  1.9
Y 0.5  3.5
  0.9  3.9
Z 0.5  5.5
  0.9  5.9

如果它与传递给 quantiles() 的单个数字一起使用,您可以破解类似

的内容
q = [0.2, 0.5, 0.9]
res = [df.groupby("B").quantile(_).loc['X', 'A'] for _ in q]

df_q = pd.DataFrame({'A':res, 'quantiles':q})

print(df_q)

输出:

     A  quantiles
0  1.2        0.2
1  1.5        0.5
2  1.9        0.9

直到修复。