当我在 python 中使用 ks 检验时，为什么我的 p 值等于 0 而统计量等于 1？

Question

感谢任何先看的人。

我的代码是：

import numpy as np
from scipy.stats import kstest
data=[31001, 38502, 40842, 40852, 43007, 47228, 48320, 50500, 54545, 57437, 60126, 65556, 71215, 78460, 81299, 96851, 106472, 108398, 118495, 130832, 141678, 155703, 180689, 218032, 222238, 239553, 250895, 274025, 298231, 330228, 330910, 352058, 362993, 369690, 382487, 397270, 414179, 454013, 504993, 518475, 531767, 551032, 782483, 913658, 1432195, 1712510, 2726323, 2777535, 3996759, 13608152]
x=np.array(data)
test_sta=kstest(x, 'norm')
print(test_sta)

kstest的结果是KstestResult(statistic=1.0, pvalue=0.0)。是代码有问题还是数据根本不正常？

Answer 1

我以前没用过这个，但我认为你正在测试你的数据是否是标准正态的（即均值=0，方差=1）

绘制直方图显示它更接近对数正态分布。因此我会这样做：

x = np.log(data)
x -= np.mean(x)
x /= np.std(x)
kstest(x, 'norm')

这给了我 0.095 的检验统计量和 0.75 的 p 值，确认我们不能拒绝它不是对数正态分布。

检查此类事情的一个好方法是生成一些随机数据（来自已知分布）并查看测试返回的结果。例如：

kstest(np.random.normal(size=100), 'norm')

给我的 p 值接近 1，而：

kstest(np.random.normal(loc=13, size=100), 'norm')

给我的 p 值接近 0。

对数正态分布就是对数变换后呈正态分布。如果你真的想针对正态分布进行测试，你就不会记录转换数据，例如：

x = np.array(data, dtype=float)
x -= np.mean(x)
x /= np.std(x)
kstest(x, 'norm')

这给了我 7e-7 的 p 值，表明我们可以可靠地拒绝它服从正态分布的假设。

当我在 python 中使用 ks 检验时，为什么我的 p 值等于 0 而统计量等于 1？

Why did my p-value equals 0 and statistic equals 1 when I use ks test in python?

python

statistics

p-value

kolmogorov-smirnov