使用预聚合数据进行正态性检验

normality test with pre-aggregated data

我使用 spark 汇总了每个组(队列)的数据,仅包含均值、标准差和方差。

现在在使用 python 的第二步中,我想测试正态性 (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.normaltest.html),然后使用 t 检验 stats.ttest_indstats.wilcoxon 等级测试

但是,所有这些方法都希望数据作为面向原始记录的值输入。如何将它们与预聚合数据一起使用?

均值、标准差和方差不足以检验每个队列的正态性。标准差是方差的平方根,所以你只有两个统计量的信息。

您还可以(或改为)计算两个汇总统计的偏度和峰度,并保存观察的计数。 Jarque–Bera test 是正态性检验,仅取决于偏度、峰度和观察次数。