关于重尾分布的基本问题

Basic question about heavy-tailed distribution

我有一个关于重尾分布的基本问题。

假设西班牙有 50,000 个城市,每个城市的人口用 p(1), p(2), …, p(n) 表示。根据分布的均值和偏差,我们如何判断分布是否重尾?我们应该考虑什么程序?

如果您拥有所有 50,000 个观测值,那么您可以计算关于平均值的中心矩。

特别地,第四中心矩除以方差平方就是峰度。这个数字会告诉你分布是否是 platykurtic 的。如果它大于三,则意味着您的分布比标准正态分布有更重的尾巴。

因此,如果您在 Python 中工作并且所有 50K 个观测值都存储在 x 中:

from scipy import stats

# Calculate kurtosis
k = stats.moment(x, 4) / x.var()**2

# Evaluate
if k > 3:
    print('Distribution has heavy tails')
else:
    print('Distribution does not have heavy tails')