如何解释 pandas 四分位数?
How can I interpret the pandas quartiles?
我有一个 pandas 数据框 df
,其中有一列 A
。 A
的值基于预测,我强制它们大于或等于 0.00000001。
现在当我 运行 df.A.describe()
我得到:
count 3.900000e+02
mean 1.047049e-05
std 7.774749e-05
min 1.000000e-08
25% 1.000000e-08
50% 1.000000e-08
75% 1.000000e-08
max 1.008428e-03+
按照我的理解,这意味着我的 A 值中至少有 75% 等于 0.0000001。
然而,当我 运行 x = len(df.loc[df['A'] == 0.00000001])
我得到 x = 207
和 207/390 < 0.75。
我不应该得到一个大于 292 (390*0.75 = 292.5) 的 x 值吗?
对于可能 运行 遇到类似问题的任何人,我找到了答案:
我的 df 中只有 207 个值 df.A == 0.00000001。然而,也有一些值略大(例如 df.A == 0.0000000100000000001)。因此,即使这些值不完全等于 0.00000001,当我打印 df 或请求 df.A.describe()
时,它们显示为 0.00000001,因为差异很小。
我有一个 pandas 数据框 df
,其中有一列 A
。 A
的值基于预测,我强制它们大于或等于 0.00000001。
现在当我 运行 df.A.describe()
我得到:
count 3.900000e+02
mean 1.047049e-05
std 7.774749e-05
min 1.000000e-08
25% 1.000000e-08
50% 1.000000e-08
75% 1.000000e-08
max 1.008428e-03+
按照我的理解,这意味着我的 A 值中至少有 75% 等于 0.0000001。
然而,当我 运行 x = len(df.loc[df['A'] == 0.00000001])
我得到 x = 207
和 207/390 < 0.75。
我不应该得到一个大于 292 (390*0.75 = 292.5) 的 x 值吗?
对于可能 运行 遇到类似问题的任何人,我找到了答案:
我的 df 中只有 207 个值 df.A == 0.00000001。然而,也有一些值略大(例如 df.A == 0.0000000100000000001)。因此,即使这些值不完全等于 0.00000001,当我打印 df 或请求 df.A.describe()
时,它们显示为 0.00000001,因为差异很小。