评估 n > 2 的 n 路拆分测试的最有决定性的方法是什么?

What is the most conclusive way to evaluate an n-way split test where n > 2?

我在设计、运行宁和评估双向拆分测试(A/B 测试)方面拥有丰富的经验。这些是迄今为止数字营销中最常见的,我的大部分工作都是在数字营销中完成的。

但是,我想知道在实验中引入更多变体时是否需要更改方法(例如,创建三向测试(A/B/C 测试))。

我的直觉告诉我,我应该 运行 对对照组进行 n-1 次评估。

例如,如果我 运行 进行 3 向拆分测试,本能告诉我应该两次找到重要性和功效:

  1. 治疗 A 与对照
  2. 治疗 B 与对照

所以,在那种情况下,我正在找出哪种治疗(如果有的话)比对照组表现更好(1 尾测试,alt:治疗 - 控制 > 0,基本营销假设)。

但是,我怀疑自己的直觉。我突然想到,运行将治疗 A 与治疗 B 进行对比的第三次测试可能会产生令人困惑的结果。

例如,如果没有足够的证据拒绝治疗 B = 治疗 A 的无效结果怎么办?

这会得出这样一个愚蠢的结论:

  1. 治疗 A = 对照

  2. 治疗 B > 对照

  3. 治疗 B = 治疗 A

如果治疗 A 和 B 可能只是由于随机机会而不同,那么怎么可能只有其中一个优于对照组?

这让我想知道是否有一种统计上更合理的方法来评估具有多个治疗变量的拆分测试。有吗?

你的直觉是正确的,你可以通过改写你的陈述来减少愚蠢:

  1. 我们发现治疗 A 和对照组之间没有统计学上的显着差异。
  2. 治疗 B 明显优于对照组。
  3. 然而,治疗 B 是否优于治疗 A 尚无定论。

这足以宣布治疗 B 胜出,可能会跟进重新测试 A 与 B。但是根据您的具体情况,您可能有业务需要实际确保治疗 B 优于治疗 A在继续之前,您不能对您的数据做出这样的决定。您必须收集更多数据 and/or 重新开始新测试。

我发现一个更常见的情况是治疗 A 和治疗 B 都很好地控制了节拍(因为它们通常密切相关并且有相关的假设),但是治疗 A 之间没有统计学上的显着差异或治疗 B。这是一个有趣的场景,如果您需要选择一个获胜者,可以放弃 window 的重要性并选择效果最强的那个。原因是设置显着性水平(例如 95%)是为了避免误报和进行不必要的更改。假设存在转换成本。在这种情况下,您必须选择 A 或 B 并放弃控制,所以在我看来,在您拥有更多数据之前,选择最好的一个是可以的。