pbcor 和 ggcorrmat 相关性在 R 中给出了不同的置信区间

pbcor and ggcorrmat correlations give different confidence intervals in R

我正在处理多个变量,我想在其中 运行 建立稳健的相关性,然后提取 95% 的置信区间。我可以使用 WRS2 包中的 pbcor 来做到这一点。

但是,当我想绘制这些值时,我使用 ggstratsplot 包中的 ggcorrmat。当我检查两个输出之间的置信区间时,我注意到它们不匹配。

这是我的数据集的示例:

Individual  varA    varB
1   2.9380842   0.09896456
2   2.9380842   -1.38772037
3   -0.6879859  -2.41310243
4   -0.6879859  0.55722346
5   -2.3129564  -1.34140699
6   -2.3129564  -1.75604301
7   -0.4937431  0.78381085
8   -0.4937431  0.38320385
9   -0.8558126  0.82125672
10  -0.8558126  0.06346062
11  -0.9211026  -1.67170174

各自 code/outputs 使用此示例数据集:

WRS2::pbcor(data$varA, data$varB, ci=TRUE, nboot=1000, beta=0.1) 
> robust correlation coefficient: 0.275
> test statistic: 0.8582
> p-value:0.41307
> bootstrap CI: [-0.3564; 0.7792]

ggstatsplot::ggcorrmat(data, cor.vars = c(OFT1, PC1), output = "dataframe", matrix.type = "lower", type = "robust", beta = 0.1, sig.level = 0.05, conf.level = 0.95, nboot = 1000)

>robust correlation: 0.275
>test statistic: 0.858
>p-value: 0.413
>CI: [-0.389, 0.751]

为什么置信区间不同,但相关值相同?

WRS2ggstatsplot 之间的 CI 不同是正确的,因为 ggstatsplot 内部不使用引导程序(速度较慢且计算成本高)来计算 CI。

Input <- ("
          Individual  varA    varB
1   2.9380842   0.09896456
2   2.9380842   -1.38772037
3   -0.6879859  -2.41310243
4   -0.6879859  0.55722346
5   -2.3129564  -1.34140699
6   -2.3129564  -1.75604301
7   -0.4937431  0.78381085
8   -0.4937431  0.38320385
9   -0.8558126  0.82125672
10  -0.8558126  0.06346062
11  -0.9211026  -1.67170174
          ")

# creating a dataframe
df <- read.table(textConnection(Input), header = TRUE)

set.seed(123)
WRS2::pbcor(df$varA, df$varB, ci = TRUE, nboot = 1000, beta = 0.1)
#> Call:
#> WRS2::pbcor(x = df$varA, y = df$varB, beta = 0.1, ci = TRUE, 
#>     nboot = 1000)
#> 
#> Robust correlation coefficient: 0.275
#> Test statistic: 0.8582
#> p-value: 0.41307 
#> 
#> Bootstrap CI: [-0.4476; 0.8223]

set.seed(123)
ggstatsplot::ggcorrmat(
  data = dplyr::select(df, -Individual),
  type = "robust",
  output = "dataframe",
  nboot = 1000, 
  beta = 0.1
)

#> # A tibble: 1 x 10
#>   parameter1 parameter2     r ci_low ci_high     t    df     p method       nobs
#>   <chr>      <chr>      <dbl>  <dbl>   <dbl> <dbl> <dbl> <dbl> <chr>       <int>
#> 1 varA       varB       0.275 -0.389   0.751 0.809     9 0.439 Percentage~    11

而是 returns non-central 效应大小的置信区间。

如果你很好奇,用于计算 CI 的相关代码片段在这里: https://github.com/easystats/correlation/blob/ddd105da55c8b5a81e4ce97b8938f5f00e6e968b/R/cor_to_ci.R#L70-L85