产品特性的AB测试

ab testing for product features

如果 Yelp 想了解评分是否有助于用户选择列表,并且我们使用点击率作为 运行 ab 测试的成功指标,我们怎么知道点击率仅取决于评级而不是列表的其他部分(如评论)?

在进行 ab 测试之前,我们是否必须进行某种用户细分而不是随机分配用户?

随机化处理除治疗之外的所有其他变量。统计显着性检验负责处理和机会之间的选择。只有当您无法进行随机试验时,您才需要控制其他差异化因素。

对于大多数实验,您通常希望相信随机化。随机化是一个无偏见的过程,有足够的用户,控制所有可能的混杂因素,包括已知(例如年龄、性别和 OS)和未知(例如个性、头发颜色和成熟度),在测试和测试之间进行比较控制组平衡且公平。由于两组同时暴露和测量,A/B 测试还纠正了时间和季节性影响。测试组和对照组之间的统计显着差异可以直接归因于正在测试的变化。我写了更多关于 this in a blog post.

使用自定义用户细分通常只用于随机化可能会产生不平衡组的极少数情况。这通常很少见,但一个例子是,如果你将一个 100 人的房间分成两组,但 Bill Gates 和 Elon Musk 在这个房间里。根据您要衡量的指标,它们可能会把事情搞得一团糟。随机化会让两位亿万富翁在一半的时间里都在同一组。在这种情况下,值得进行自定义细分并强制将它们分到不同的组中。但这种事情通常很少见,很少会影响像点击率这样的二元指标。