从分布图中估计 p 值阈值
Estimating p-value thresholds from a distribution plot
我的数据采用以下格式并包含特定统计信息
site LRStat
1 3.580728
2 2.978038
3 5.058644
4 3.699278
5 4.349046
这只是数据的一个样本。
然后我也通过排列随机数据对获得了空 LR 分布。我用它来绘制直方图,其中 y 轴为频率,x 轴为 LR 统计量。如何根据零分布确定临界p值截止点(如下图所示)?
您现在有了 LR 值的抽样分布。 R 中的 quantile
函数会给你一个你喜欢的 "critical value" 的估计值。例如,如果您决定要使用传统的 0.05 "p-value",您可以使用名为 LR_df 的数据框进行说明,然后发出此命令:
quantile( LR_df[ , 'LRStat'] , 0.95)
如果您想要图上的所有这些 "probabilities",您可以使用与单位互补的值向量。以下代码为您提供 LSstat
值,在该值处样本的给定比例高于该值。
quantile( LR_df[ , 'LRStat'] , c(0.9, 0.95, 0.99, 0.999, 0.9999) )
p 值只是零假设下检验统计量的抽样分布。在这种情况下,您的原假设是 LRstats
是均匀分布的。 (我知道这样说听起来很奇怪,但如果您想与统计学家争论,那么请获取 http://amstat.tandfonline.com/doi/pdf/10.1198/000313008X332421 的副本。)截止 p 值的选择将取决于科学或商业环境。如果你正在评估一个投资机会,截止值可能是 0.15,但如果你正在尝试寻找新的科学知识,我认为它应该更小(更严格的测试)。分子遗传学领域在他们的文献中有很多垃圾(即无法重现结果),因为他们在统计方法上不够严格。
我的数据采用以下格式并包含特定统计信息
site LRStat
1 3.580728
2 2.978038
3 5.058644
4 3.699278
5 4.349046
这只是数据的一个样本。
然后我也通过排列随机数据对获得了空 LR 分布。我用它来绘制直方图,其中 y 轴为频率,x 轴为 LR 统计量。如何根据零分布确定临界p值截止点(如下图所示)?
您现在有了 LR 值的抽样分布。 R 中的 quantile
函数会给你一个你喜欢的 "critical value" 的估计值。例如,如果您决定要使用传统的 0.05 "p-value",您可以使用名为 LR_df 的数据框进行说明,然后发出此命令:
quantile( LR_df[ , 'LRStat'] , 0.95)
如果您想要图上的所有这些 "probabilities",您可以使用与单位互补的值向量。以下代码为您提供 LSstat
值,在该值处样本的给定比例高于该值。
quantile( LR_df[ , 'LRStat'] , c(0.9, 0.95, 0.99, 0.999, 0.9999) )
p 值只是零假设下检验统计量的抽样分布。在这种情况下,您的原假设是 LRstats
是均匀分布的。 (我知道这样说听起来很奇怪,但如果您想与统计学家争论,那么请获取 http://amstat.tandfonline.com/doi/pdf/10.1198/000313008X332421 的副本。)截止 p 值的选择将取决于科学或商业环境。如果你正在评估一个投资机会,截止值可能是 0.15,但如果你正在尝试寻找新的科学知识,我认为它应该更小(更严格的测试)。分子遗传学领域在他们的文献中有很多垃圾(即无法重现结果),因为他们在统计方法上不够严格。