从分布图中估计 p 值阈值

Question

我的数据采用以下格式并包含特定统计信息

   site     LRStat
   1        3.580728
   2        2.978038
   3        5.058644
   4        3.699278
   5        4.349046

这只是数据的一个样本。

然后我也通过排列随机数据对获得了空 LR 分布。我用它来绘制直方图，其中 y 轴为频率，x 轴为 LR 统计量。如何根据零分布确定临界p值截止点（如下图所示）？

Answer 1

您现在有了 LR 值的抽样分布。 R 中的 quantile 函数会给你一个你喜欢的 "critical value" 的估计值。例如，如果您决定要使用传统的 0.05 "p-value"，您可以使用名为 LR_df 的数据框进行说明，然后发出此命令：

quantile( LR_df[ , 'LRStat'] , 0.95)

如果您想要图上的所有这些 "probabilities"，您可以使用与单位互补的值向量。以下代码为您提供 LSstat 值，在该值处样本的给定比例高于该值。

quantile( LR_df[ , 'LRStat'] , c(0.9, 0.95, 0.99, 0.999, 0.9999) )

p 值只是零假设下检验统计量的抽样分布。在这种情况下，您的原假设是 LRstats 是均匀分布的。（我知道这样说听起来很奇怪，但如果您想与统计学家争论，那么请获取 http://amstat.tandfonline.com/doi/pdf/10.1198/000313008X332421 的副本。）截止 p 值的选择将取决于科学或商业环境。如果你正在评估一个投资机会，截止值可能是 0.15，但如果你正在尝试寻找新的科学知识，我认为它应该更小（更严格的测试）。分子遗传学领域在他们的文献中有很多垃圾（即无法重现结果），因为他们在统计方法上不够严格。

从分布图中估计 p 值阈值

Estimating p-value thresholds from a distribution plot

r

distribution

histogram

p-value