5 个不同组的参数或非参数组测试

Parametric or Non-parametric group test for 5 different groups

问题陈述 - 统计证明5组相同或不同

df['Salary'] 稍微右偏。我尝试了 ANOVA 和 Kruskal 测试。

方差分析结果

如果我使用所有数据 - p 值表示各组在统计上不同(p

如果我在每组中使用 10K 个随机样本,p 值会增加到 ~0.002333

如果我在每组中使用 1000 个随机样本,p 值超过 0.05 并且约为 ~0.5

我不确定如何评估这些结果?应该考虑的样本量是多少,我还应该考虑哪些其他方法

5 组的平均值和标准差如下(当我考虑每组 100,000 个随机样本时:

组 1 - (12.134831460674159, 5.1823701530849995)

组 2 - (11.64860907759883, 5.092876703946831)

组 3 - (11.660195118395315, 4.952100116921575)

组 4 - (12.052747507535358, 5.091383288751849)

组 5 - (11.468062169943916, 4.996349965883181)

KRUSKAL 结果

当样本量 = 100

KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)

当样本量为 10,000 时

KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)

Distribution of Avg salary - Total population of ~600k

你的样本量很大,每组 100k。有了这么多数据点,您几乎可以保证找到统计上显着的差异/结果。这些统计测试并不是真正为如此大的样本量设计的。

您应该使用所有数据来获得最佳估计值,但是您必须使用领域知识来确定差异是否具有实际意义。您还应该查看置信区间以确定效果。

此外,方差分析假设 残差 而非数据的正态分布。