当从二项式随机变量建模值时,Stan/RStan 中的 if() 条件出现问题
Problems with if() condition in Stan/RStan when modelling values from binomial random variable
我正在尝试使用 Stan 和 R 来拟合一个模型,呃,对观察到的实现进行建模 y_i = 16, 9, 10, 13, 19, 20, 18, 17, 35, 55,它们来自二项式分布随机变量,例如 Y_i,参数为 m_i(试验次数)和 p_i(每次试验的成功概率)。
yi = c(16, 9, 10, 13, 19, 20, 18, 17, 35, 55)
出于本实验的目的,我将假设所有 m_i 都是固定的并由 m_i = 74, 99, 58, 70, 122, 77, 104, 129, 308, 119.
mi = c(74, 99, 58, 70, 122, 77, 104, 129, 308, 119)
我将使用 Jeffrey 的先验:\alpha=0.5 和 \beta=0.5。
alpha = 0.5, beta = 0.5
我正在尝试
- 找到 p_i 的贝叶斯估计值。
- 求p_i的范围(即参数k如下:
我在2.的尝试是这段代码:
real k;
real mx = 0;
real mn = 0;
if (p > mx)
mx = p;
if (mn > p) {
mn = p;
}
k = mx - mn;
我的Stan代码如下:
```{stan output.var="BinModBeta"}
data {
int <lower = 1> mi[10];
int <lower = 0> yi[10];
real <lower = 0> alpha;
real <lower = 0> beta;
}
parameters {
real <lower = 0, upper = 1> p[10];
}
transformed parameters {
real k;
real mx = 0;
real mn = 0;
if (p > mx)
mx = p;
if (mn > p) {
mn = p;
}
k = mx - mn;
}
model {
yi ~ binomial(mi, p);
p ~ beta(alpha, beta);
}
```
我的R代码如下:
```{r}
library(rstan)
```
```{r}
data.in <- list(mi = c(74, 99, 58, 70, 122, 77, 104, 129, 308, 119), yi = c(16, 9, 10, 13, 19, 20, 18, 17, 35, 55), alpha = 0.5, beta = 0.5)
model.fit1 <- sampling(BinModBeta, data=data.in)
```
```{r}
print(model.fit1, pars = c("p"), probs=c(0.1,0.5,0.9), digits = 5)
```
现在,我刚开始学习 Stan,所以老实说,我不确定这是否正确。然而,它 似乎 就像这段代码对我的第一个目标有效(至少,我编写的任何代码似乎都有效......)。 但是当我尝试编写第二个目标时,我的麻烦就开始了。
当我尝试编译上面的 Stan 代码时,出现以下错误:
现在,根据这个错误消息,我的问题似乎是由于 p 是一个包含 10 个实数值的向量,而不是一个实数值。但是,由于我对 Stan 缺乏经验,我不确定如何解决这个问题。
这是我会做的:
model <- "
data {
int <lower = 1> mi[10];
int <lower = 0> yi[10];
real <lower = 0> alpha;
real <lower = 0> beta;
}
parameters {
real <lower = 0, upper = 1> p[10];
}
model {
p ~ beta(alpha, beta); // Prior
yi ~ binomial(mi, p); // Likelihood
}
generated quantities {
real k;
k = max(p) - min(p);
}
"
library(rstan);
yi = c(16, 9, 10, 13, 19, 20, 18, 17, 35, 55);
mi = c(74, 99, 58, 70, 122, 77, 104, 129, 308, 119);
fit <- stan(
model_code = model,
data = list(mi = mi, yi = yi, alpha = 0.5, beta = 0.5))
fit;
#Inference for Stan model: 6a01a3b25656e1b18183baf19183abf7.
#4 chains, each with iter=2000; warmup=1000; thin=1;
#post-warmup draws per chain=1000, total post-warmup draws=4000.
#
# mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat
#p[1] 0.22 0.00 0.05 0.13 0.19 0.22 0.25 0.32 4000 1
#p[2] 0.10 0.00 0.03 0.05 0.07 0.09 0.11 0.16 4000 1
#p[3] 0.18 0.00 0.05 0.09 0.14 0.17 0.21 0.28 4000 1
#p[4] 0.19 0.00 0.05 0.11 0.16 0.19 0.22 0.29 4000 1
#p[5] 0.16 0.00 0.03 0.10 0.14 0.16 0.18 0.22 4000 1
#p[6] 0.26 0.00 0.05 0.17 0.23 0.26 0.30 0.37 4000 1
#p[7] 0.18 0.00 0.04 0.11 0.15 0.17 0.20 0.25 4000 1
#p[8] 0.13 0.00 0.03 0.08 0.11 0.13 0.15 0.20 4000 1
#p[9] 0.11 0.00 0.02 0.08 0.10 0.11 0.13 0.15 4000 1
#p[10] 0.46 0.00 0.04 0.38 0.43 0.46 0.49 0.55 4000 1
#k 0.38 0.00 0.05 0.28 0.34 0.38 0.41 0.47 4000 1
#lp__ -530.01 0.05 2.26 -535.38 -531.33 -529.65 -528.37 -526.69 1782 1
#
#Samples were drawn using NUTS(diag_e) at Tue Apr 24 22:02:07 2018.
#For each parameter, n_eff is a crude measure of effective sample size,
#and Rhat is the potential scale reduction factor on split chains (at
#convergence, Rhat=1).
评论:
我会把计算k
的部分移到generated quantities
块中;这与在不同时间执行的不同程序块有关。虽然 transformed parameters
块在每个越级步骤中执行一次,但 generated quantities
块在每次抽样时仅执行一次。因此重新计算 k
的开销会更少。参见例如here 了解详情。请注意,来自 pi
后验密度的不确定性会正确传播到 k
.
您可以在计算 k
时使用 Stan
的内部 max
、min
函数。这将比使用 if
条件确定 pi
的 min/max 更快,并且还消除了定义 mn
和 mx
的需要。
我正在尝试使用 Stan 和 R 来拟合一个模型,呃,对观察到的实现进行建模 y_i = 16, 9, 10, 13, 19, 20, 18, 17, 35, 55,它们来自二项式分布随机变量,例如 Y_i,参数为 m_i(试验次数)和 p_i(每次试验的成功概率)。
yi = c(16, 9, 10, 13, 19, 20, 18, 17, 35, 55)
出于本实验的目的,我将假设所有 m_i 都是固定的并由 m_i = 74, 99, 58, 70, 122, 77, 104, 129, 308, 119.
mi = c(74, 99, 58, 70, 122, 77, 104, 129, 308, 119)
我将使用 Jeffrey 的先验:\alpha=0.5 和 \beta=0.5。
alpha = 0.5, beta = 0.5
我正在尝试
- 找到 p_i 的贝叶斯估计值。
- 求p_i的范围(即参数k如下:
我在2.的尝试是这段代码:
real k;
real mx = 0;
real mn = 0;
if (p > mx)
mx = p;
if (mn > p) {
mn = p;
}
k = mx - mn;
我的Stan代码如下:
```{stan output.var="BinModBeta"}
data {
int <lower = 1> mi[10];
int <lower = 0> yi[10];
real <lower = 0> alpha;
real <lower = 0> beta;
}
parameters {
real <lower = 0, upper = 1> p[10];
}
transformed parameters {
real k;
real mx = 0;
real mn = 0;
if (p > mx)
mx = p;
if (mn > p) {
mn = p;
}
k = mx - mn;
}
model {
yi ~ binomial(mi, p);
p ~ beta(alpha, beta);
}
```
我的R代码如下:
```{r}
library(rstan)
```
```{r}
data.in <- list(mi = c(74, 99, 58, 70, 122, 77, 104, 129, 308, 119), yi = c(16, 9, 10, 13, 19, 20, 18, 17, 35, 55), alpha = 0.5, beta = 0.5)
model.fit1 <- sampling(BinModBeta, data=data.in)
```
```{r}
print(model.fit1, pars = c("p"), probs=c(0.1,0.5,0.9), digits = 5)
```
现在,我刚开始学习 Stan,所以老实说,我不确定这是否正确。然而,它 似乎 就像这段代码对我的第一个目标有效(至少,我编写的任何代码似乎都有效......)。 但是当我尝试编写第二个目标时,我的麻烦就开始了。
当我尝试编译上面的 Stan 代码时,出现以下错误:
现在,根据这个错误消息,我的问题似乎是由于 p 是一个包含 10 个实数值的向量,而不是一个实数值。但是,由于我对 Stan 缺乏经验,我不确定如何解决这个问题。
这是我会做的:
model <- "
data {
int <lower = 1> mi[10];
int <lower = 0> yi[10];
real <lower = 0> alpha;
real <lower = 0> beta;
}
parameters {
real <lower = 0, upper = 1> p[10];
}
model {
p ~ beta(alpha, beta); // Prior
yi ~ binomial(mi, p); // Likelihood
}
generated quantities {
real k;
k = max(p) - min(p);
}
"
library(rstan);
yi = c(16, 9, 10, 13, 19, 20, 18, 17, 35, 55);
mi = c(74, 99, 58, 70, 122, 77, 104, 129, 308, 119);
fit <- stan(
model_code = model,
data = list(mi = mi, yi = yi, alpha = 0.5, beta = 0.5))
fit;
#Inference for Stan model: 6a01a3b25656e1b18183baf19183abf7.
#4 chains, each with iter=2000; warmup=1000; thin=1;
#post-warmup draws per chain=1000, total post-warmup draws=4000.
#
# mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat
#p[1] 0.22 0.00 0.05 0.13 0.19 0.22 0.25 0.32 4000 1
#p[2] 0.10 0.00 0.03 0.05 0.07 0.09 0.11 0.16 4000 1
#p[3] 0.18 0.00 0.05 0.09 0.14 0.17 0.21 0.28 4000 1
#p[4] 0.19 0.00 0.05 0.11 0.16 0.19 0.22 0.29 4000 1
#p[5] 0.16 0.00 0.03 0.10 0.14 0.16 0.18 0.22 4000 1
#p[6] 0.26 0.00 0.05 0.17 0.23 0.26 0.30 0.37 4000 1
#p[7] 0.18 0.00 0.04 0.11 0.15 0.17 0.20 0.25 4000 1
#p[8] 0.13 0.00 0.03 0.08 0.11 0.13 0.15 0.20 4000 1
#p[9] 0.11 0.00 0.02 0.08 0.10 0.11 0.13 0.15 4000 1
#p[10] 0.46 0.00 0.04 0.38 0.43 0.46 0.49 0.55 4000 1
#k 0.38 0.00 0.05 0.28 0.34 0.38 0.41 0.47 4000 1
#lp__ -530.01 0.05 2.26 -535.38 -531.33 -529.65 -528.37 -526.69 1782 1
#
#Samples were drawn using NUTS(diag_e) at Tue Apr 24 22:02:07 2018.
#For each parameter, n_eff is a crude measure of effective sample size,
#and Rhat is the potential scale reduction factor on split chains (at
#convergence, Rhat=1).
评论:
我会把计算
k
的部分移到generated quantities
块中;这与在不同时间执行的不同程序块有关。虽然transformed parameters
块在每个越级步骤中执行一次,但generated quantities
块在每次抽样时仅执行一次。因此重新计算k
的开销会更少。参见例如here 了解详情。请注意,来自pi
后验密度的不确定性会正确传播到k
.您可以在计算
k
时使用Stan
的内部max
、min
函数。这将比使用if
条件确定pi
的 min/max 更快,并且还消除了定义mn
和mx
的需要。