假设检验以确定平均值是否更大

Hypothesis test to determine if mean is greater

我有一个性能测试套件可以测试 Chrome 浏览器版本(遥测)。对于给定的测试,我正在尝试确定一个版本是否 faster/slower 或与另一个版本没有显着差异。

对于每个测试运行我提供:avg、std、count、max、min、sum。

我可以比较两个测试 运行s(例如在两个浏览器之间),我得到:delta avg, % delta avg, delta std, % delta std, ... 等。我也得到了p 值(直方图没有显着差异的概率)、z 分数(也称为标准分数:直方图平均值和参考直方图平均值之间的标准差数)和 U 统计量(生成的数字和由 Mann-Whitney U 假设检验消耗。

根据这些测试统计数据,我怎么能肯定地说一个浏览器 slower/faster 与另一个浏览器没有区别?

我正在考虑只检查 p 值 < 0.05,如果是,比较平均值。但这似乎太简单了。

非常感谢任何帮助。


更新:

如果我重新运行 测试,我会得到 +/- 10% 的两个浏览器之间的 % delta avg,所以只看 avg 和 p 值是不够的。

首先,您必须选择要执行的测试类型(参数或非参数)。我不会使用 z 检验,因为我想你估计的是标准差。

  1. 如果您的数据是正常的并且它们具有相等的方差,您可以执行 t-test(参数)。如果它们的方差不相等,您可以使用 Welch 的 t 检验。
  2. 如果它们不正常,您应该执行 Mann-Whitney test(非参数)。但是,mann-whitney 仅在分布彼此不同而不是均值时进行检验。如果幸运的话,它们具有相同的方差,那么您可以对均值进行推断。

确保在您使用的统计软件中执行的是单方面测试,这样您才能真正看到哪个浏览器是 slower/faster。请注意,如果您拒绝假设 avg(X)>avg(Y),这并不意味着 avg(Y)>avg(X)。意思是统计上avg(Y)>=avg(X).

最后,您必须使用 X 置信度执行测试才能对结果有 X% 的把握。更简单地说,检查 p 值是否 <1-X。如果您先执行正态性检验然后执行 t 检验,则此方法无效,那么您对结果的确定性低于 X%!

使用可用的值,您可以执行上述所有测试。