当 运行 基本概率模型时,PyStan 因段错误而失败
PyStan fails with Segfault when running basic probit model
我对 PyStan 越来越熟悉了。我有 运行 几个模型,包括没有问题的贝叶斯线性回归模型。但是,当我尝试 运行 以下代码时,出现段错误:
Segmentation fault (core dumped)
有趣的是,这仅在 老化迭代完成后 发生。我的模型代码在这里。我目前正在编造一些数据并试图推断参数 beta_tru_1
和 alpha
。模型代码来自Stan User's Guide.
import pystan
import numpy as np
from scipy.stats import norm
# the params
beta_tru_1 = 3.7
alpha = 2.3
# make some data
n = 1000
np.random.seed(1)
x1 = norm(0, 1).rvs(n)
z = alpha + x1 * beta_tru_1
y = [1 if i > 0.7 else 0 for i in norm.cdf(z)]
# train test split
y_train, y_test = y[:750], y[750:]
x_train, x_test = x1[:750], x1[750:]
# stan code
probit_code = """
data {
int<lower=0> n; // number of data vectors
real x[n]; // data matrix
int<lower=0,upper=1> y[n]; // response vector
}
parameters {
real beta; // regression coefs
real alpha;
}
model {
for (i in 1:n)
y[i] ~ bernoulli(Phi(alpha + beta * x[i]));
}
"""
# compile the model
probit_model = pystan.StanModel(model_code=probit_code)
# the data
probit_dat = {
"n": len(y_train),
"y": y_train,
"x": x_train
}
# fit the model (small number of iterations for debug)
# this is where the error is
probit_fit = probit_model.sampling(data=probit_dat, iter=500, warmup=500, chains=4, init="0")
我在 Linux Pop OS 20.10 上使用 PyStan v. 2.19.1.1 和 python 3.7.6。我在多台机器上有 运行 这段代码,包括一个 Ubuntu 容器,但没有成功。感谢任何帮助。
我能够确定此错误的原因。我用于 probit_model.sampling
参数的参数导致了问题。具体来说,iter
和 warmups
参数不能相同。 iter
参数是 总 迭代次数,包括通过 warmup
参数指定的“老化”迭代。因此,我指定的输入导致 probit_model.sampling
执行 500 次老化迭代,然后停止采样,而不是对 1000 次总 HMC 迭代执行另外 500 次迭代。
此行为的正确参数设置为:
probit_model.sampling(data=probit_dat, iter=1000, warmup=500)
我已经测试了这个解决方案,它按预期运行。 (虽然这个样本数量不足以在这个问题上进行有效推理。)
我对 PyStan 越来越熟悉了。我有 运行 几个模型,包括没有问题的贝叶斯线性回归模型。但是,当我尝试 运行 以下代码时,出现段错误:
Segmentation fault (core dumped)
有趣的是,这仅在 老化迭代完成后 发生。我的模型代码在这里。我目前正在编造一些数据并试图推断参数 beta_tru_1
和 alpha
。模型代码来自Stan User's Guide.
import pystan
import numpy as np
from scipy.stats import norm
# the params
beta_tru_1 = 3.7
alpha = 2.3
# make some data
n = 1000
np.random.seed(1)
x1 = norm(0, 1).rvs(n)
z = alpha + x1 * beta_tru_1
y = [1 if i > 0.7 else 0 for i in norm.cdf(z)]
# train test split
y_train, y_test = y[:750], y[750:]
x_train, x_test = x1[:750], x1[750:]
# stan code
probit_code = """
data {
int<lower=0> n; // number of data vectors
real x[n]; // data matrix
int<lower=0,upper=1> y[n]; // response vector
}
parameters {
real beta; // regression coefs
real alpha;
}
model {
for (i in 1:n)
y[i] ~ bernoulli(Phi(alpha + beta * x[i]));
}
"""
# compile the model
probit_model = pystan.StanModel(model_code=probit_code)
# the data
probit_dat = {
"n": len(y_train),
"y": y_train,
"x": x_train
}
# fit the model (small number of iterations for debug)
# this is where the error is
probit_fit = probit_model.sampling(data=probit_dat, iter=500, warmup=500, chains=4, init="0")
我在 Linux Pop OS 20.10 上使用 PyStan v. 2.19.1.1 和 python 3.7.6。我在多台机器上有 运行 这段代码,包括一个 Ubuntu 容器,但没有成功。感谢任何帮助。
我能够确定此错误的原因。我用于 probit_model.sampling
参数的参数导致了问题。具体来说,iter
和 warmups
参数不能相同。 iter
参数是 总 迭代次数,包括通过 warmup
参数指定的“老化”迭代。因此,我指定的输入导致 probit_model.sampling
执行 500 次老化迭代,然后停止采样,而不是对 1000 次总 HMC 迭代执行另外 500 次迭代。
此行为的正确参数设置为:
probit_model.sampling(data=probit_dat, iter=1000, warmup=500)
我已经测试了这个解决方案,它按预期运行。 (虽然这个样本数量不足以在这个问题上进行有效推理。)