从分布图中估计 p 值阈值

Estimating p-value thresholds from a distribution plot

我的数据采用以下格式并包含特定统计信息

   site     LRStat
   1        3.580728
   2        2.978038
   3        5.058644
   4        3.699278
   5        4.349046

这只是数据的一个样本。

然后我也通过排列随机数据对获得了空 LR 分布。我用它来绘制直方图,其中 y 轴为频率,x 轴为 LR 统计量。如何根据零分布确定临界p值截止点(如下图所示)?

您现在有了 LR 值的抽样分布。 R 中的 quantile 函数会给你一个你喜欢的 "critical value" 的估计值。例如,如果您决定要使用传统的 0.05 "p-value",您可以使用名为 LR_df 的数据框进行说明,然后发出此命令:

quantile( LR_df[ , 'LRStat'] , 0.95) 

如果您想要图上的所有这些 "probabilities",您可以使用与单位互补​​的值向量。以下代码为您提供 LSstat 值,在该值处样本的给定比例高于该值。

quantile( LR_df[ , 'LRStat'] , c(0.9, 0.95, 0.99, 0.999, 0.9999) ) 

p 值只是零假设下检验统计量的抽样分布。在这种情况下,您的原假设是 LRstats 是均匀分布的。 (我知道这样说听起来很奇怪,但如果您想与统计学家争论,那么请获取 http://amstat.tandfonline.com/doi/pdf/10.1198/000313008X332421 的副本。)截止 p 值的选择将取决于科学或商业环境。如果你正在评估一个投资机会,截止值可能是 0.15,但如果你正在尝试寻找新的科学知识,我认为它应该更小(更严格的测试)。分子遗传学领域在他们的文献中有很多垃圾(即无法重现结果),因为他们在统计方法上不够严格。