5 个不同组的参数或非参数组测试
Parametric or Non-parametric group test for 5 different groups
问题陈述 - 统计证明5组相同或不同
我正在处理数据集大小约为 600,000 的问题。
有 5 个组 [A、B、C、D、E] 和相应的工资,每组大约 100k 个观察值。
df['Salary']
稍微右偏。我尝试了 ANOVA 和 Kruskal 测试。
方差分析结果
如果我使用所有数据 - p 值表示各组在统计上不同(p
如果我在每组中使用 10K 个随机样本,p 值会增加到 ~0.002333
如果我在每组中使用 1000 个随机样本,p 值超过 0.05 并且约为 ~0.5
我不确定如何评估这些结果?应该考虑的样本量是多少,我还应该考虑哪些其他方法
5 组的平均值和标准差如下(当我考虑每组 100,000 个随机样本时:
组 1 - (12.134831460674159, 5.1823701530849995)
组 2 - (11.64860907759883, 5.092876703946831)
组 3 - (11.660195118395315, 4.952100116921575)
组 4 - (12.052747507535358, 5.091383288751849)
组 5 - (11.468062169943916, 4.996349965883181)
KRUSKAL 结果
当样本量 = 100
KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)
当样本量为 10,000 时
KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)
Distribution of Avg salary - Total population of ~600k
你的样本量很大,每组 100k。有了这么多数据点,您几乎可以保证找到统计上显着的差异/结果。这些统计测试并不是真正为如此大的样本量设计的。
您应该使用所有数据来获得最佳估计值,但是您必须使用领域知识来确定差异是否具有实际意义。您还应该查看置信区间以确定效果。
此外,方差分析假设 残差 而非数据的正态分布。
问题陈述 - 统计证明5组相同或不同
我正在处理数据集大小约为 600,000 的问题。
有 5 个组 [A、B、C、D、E] 和相应的工资,每组大约 100k 个观察值。
df['Salary']
稍微右偏。我尝试了 ANOVA 和 Kruskal 测试。
方差分析结果
如果我使用所有数据 - p 值表示各组在统计上不同(p
如果我在每组中使用 10K 个随机样本,p 值会增加到 ~0.002333
如果我在每组中使用 1000 个随机样本,p 值超过 0.05 并且约为 ~0.5
我不确定如何评估这些结果?应该考虑的样本量是多少,我还应该考虑哪些其他方法
5 组的平均值和标准差如下(当我考虑每组 100,000 个随机样本时:
组 1 - (12.134831460674159, 5.1823701530849995)
组 2 - (11.64860907759883, 5.092876703946831)
组 3 - (11.660195118395315, 4.952100116921575)
组 4 - (12.052747507535358, 5.091383288751849)
组 5 - (11.468062169943916, 4.996349965883181)
KRUSKAL 结果
当样本量 = 100
KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)
当样本量为 10,000 时
KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)
Distribution of Avg salary - Total population of ~600k
你的样本量很大,每组 100k。有了这么多数据点,您几乎可以保证找到统计上显着的差异/结果。这些统计测试并不是真正为如此大的样本量设计的。
您应该使用所有数据来获得最佳估计值,但是您必须使用领域知识来确定差异是否具有实际意义。您还应该查看置信区间以确定效果。
此外,方差分析假设 残差 而非数据的正态分布。