如何处理 stan 中丢失的数据?
How to deal with the missing data in stan?
我是 stan 的新手,我正在实现概率矩阵分解模型。
给定一个用户-项目评分矩阵:
item
user 1 3 NA 4 5 NA
2 0 3 NA 1 5
1 1 NA NA NA 0
....
我应该如何表示data
块中的可观察数据和parameter
块中用于预测的缺失数据?
提前致谢!
编辑:
现在我正在实现如下模型:
pmf_code = """
data {
int<lower=0> K; //number of factors
int<lower=0> N; //number of user
int<lower=0> M; //number of item
int<lower=0> D; //number of observation
int<lower=0> D_new; //number of pridictor
int<lower=0, upper=N> ii[D]; //item
int<lower=0, upper=M> jj[D]; //user
int<lower=0, upper=N> ii_new[D_new]; // item
int<lower=0, upper=N> jj_new[D_new]; // user
real<lower=0, upper=5> r[D]; //rating
real<lower=0, upper=5> r_new[D_new]; //pridict rating
}
parameters {
row_vector[K] i[M]; // item profile
row_vector[K] u[N]; // user profile
real<lower=0> alpha;
real<lower=0> alpha_i;
real<lower=0> alpha_u;
}
transformed parameters {
matrix[N,M] I; // indicator variable
I <- rep_matrix(0, N, M);
for (d in 1:D){
I[ii[d]][jj[d]] <- 1;
}
}
model {
for (d in 1:D){
r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}
for (n in 1: N){
u[n] ~ normal(0,(1/alpha_u) * I);
}
for (m in 1:M){
i[m] ~ normal(0,(1/alpha_i) * I);
}
}
generated_quantities{
for (d in 1:D_new){
r_new[d] <- normal(u[jj_new[d]]' * i[ii_new[d]], 1/alpha);
}
}
"""
但在这行代码中出现 No matches for: real ~ normal(matrix, real)
错误:
for (d in 1:D){
r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}
但是jj[d]
应该是一个整数,表示user
的id。而 u[int
] 应该是一个 row_vector
有 k
个因素,i[ii[d]]
也是如此。它们的乘积应该是一个实数,为什么stan说是matrix
?
Stan 既没有缺失数据符号,也没有估计离散未知数的能力,所以你提出的几乎是不可能的,也不是学习 Stan 的好切入点。这在 Stan 用户手册中有解释。
原则上,您可以传入非缺失数据和一个二维整数数组,如果用户缺少该项目则为 0,如果该用户观察到该项目则为 1。然后,您需要为每个用户和项目声明一个潜在效用,如果观察到数据点,则将它们限制在正确的两个切点之间,并调整您使用的转换导数的绝对值以获得潜在效用之间切点。如果数据点缺失,则相应的潜在效用不受约束。这本质上是 Gibbs 采样器使用的数据增强方法,尽管 Stan 不是 Gibbs 采样器。然后,您为潜在效用指定模型(将误差的规模限制为 1)并希望获得最佳结果。很可能会有很多不同的转换,这将需要您将 adapt_delta
设置得非常接近 1 以消除它们。
我们所拥有的最接近这种方法示例的是多元概率 model 但这是针对二元结果的更简单情况。
Stan 手册中有一章是关于如何处理缺失或稀疏数据的。在这种情况下,它缺少数据。你想要做的是把它放在长格式(R 的重塑包称为融化形式):
int<lower=0> I; // number of items
int<lower=0> J; // number of users
int N; // number of observations
int<lower=1, upper=I> ii[N]; // item
int<lower=1, upper=J> jj[N]; // user
int<lower=0, upper=5> y[N]; // rating
然后,对于每个观察 n
,您让用户 jj[n]
将评分 y[n]
分配给项目 ii[n]
。
手册回归部分的 IRT 模型中有一个这样的例子。但是你有一个有序的结果,这有点棘手。你可以做某种直接的顺序逻辑,可能是分层的,或者你可以尝试做一些类似因子模型的事情(比如每个人都用于 Netflix 的部分 SVD)。手册中还有因子模型的示例——您将使用这些模型为序数回归生成线性预测变量。
然后,如果你想预测 y[m]
项目 i
和用户 j
的一些新组合,你可以在生成的数量块中将其作为后验预测量.您可以通过抽样或期望来做到这一点;在潜在离散参数章节的变点模型和关于预测的回归章节中都有一个例子。
我是 stan 的新手,我正在实现概率矩阵分解模型。
给定一个用户-项目评分矩阵:
item
user 1 3 NA 4 5 NA
2 0 3 NA 1 5
1 1 NA NA NA 0
....
我应该如何表示data
块中的可观察数据和parameter
块中用于预测的缺失数据?
提前致谢!
编辑:
现在我正在实现如下模型:
pmf_code = """
data {
int<lower=0> K; //number of factors
int<lower=0> N; //number of user
int<lower=0> M; //number of item
int<lower=0> D; //number of observation
int<lower=0> D_new; //number of pridictor
int<lower=0, upper=N> ii[D]; //item
int<lower=0, upper=M> jj[D]; //user
int<lower=0, upper=N> ii_new[D_new]; // item
int<lower=0, upper=N> jj_new[D_new]; // user
real<lower=0, upper=5> r[D]; //rating
real<lower=0, upper=5> r_new[D_new]; //pridict rating
}
parameters {
row_vector[K] i[M]; // item profile
row_vector[K] u[N]; // user profile
real<lower=0> alpha;
real<lower=0> alpha_i;
real<lower=0> alpha_u;
}
transformed parameters {
matrix[N,M] I; // indicator variable
I <- rep_matrix(0, N, M);
for (d in 1:D){
I[ii[d]][jj[d]] <- 1;
}
}
model {
for (d in 1:D){
r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}
for (n in 1: N){
u[n] ~ normal(0,(1/alpha_u) * I);
}
for (m in 1:M){
i[m] ~ normal(0,(1/alpha_i) * I);
}
}
generated_quantities{
for (d in 1:D_new){
r_new[d] <- normal(u[jj_new[d]]' * i[ii_new[d]], 1/alpha);
}
}
"""
但在这行代码中出现 No matches for: real ~ normal(matrix, real)
错误:
for (d in 1:D){
r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}
但是jj[d]
应该是一个整数,表示user
的id。而 u[int
] 应该是一个 row_vector
有 k
个因素,i[ii[d]]
也是如此。它们的乘积应该是一个实数,为什么stan说是matrix
?
Stan 既没有缺失数据符号,也没有估计离散未知数的能力,所以你提出的几乎是不可能的,也不是学习 Stan 的好切入点。这在 Stan 用户手册中有解释。
原则上,您可以传入非缺失数据和一个二维整数数组,如果用户缺少该项目则为 0,如果该用户观察到该项目则为 1。然后,您需要为每个用户和项目声明一个潜在效用,如果观察到数据点,则将它们限制在正确的两个切点之间,并调整您使用的转换导数的绝对值以获得潜在效用之间切点。如果数据点缺失,则相应的潜在效用不受约束。这本质上是 Gibbs 采样器使用的数据增强方法,尽管 Stan 不是 Gibbs 采样器。然后,您为潜在效用指定模型(将误差的规模限制为 1)并希望获得最佳结果。很可能会有很多不同的转换,这将需要您将 adapt_delta
设置得非常接近 1 以消除它们。
我们所拥有的最接近这种方法示例的是多元概率 model 但这是针对二元结果的更简单情况。
Stan 手册中有一章是关于如何处理缺失或稀疏数据的。在这种情况下,它缺少数据。你想要做的是把它放在长格式(R 的重塑包称为融化形式):
int<lower=0> I; // number of items
int<lower=0> J; // number of users
int N; // number of observations
int<lower=1, upper=I> ii[N]; // item
int<lower=1, upper=J> jj[N]; // user
int<lower=0, upper=5> y[N]; // rating
然后,对于每个观察 n
,您让用户 jj[n]
将评分 y[n]
分配给项目 ii[n]
。
手册回归部分的 IRT 模型中有一个这样的例子。但是你有一个有序的结果,这有点棘手。你可以做某种直接的顺序逻辑,可能是分层的,或者你可以尝试做一些类似因子模型的事情(比如每个人都用于 Netflix 的部分 SVD)。手册中还有因子模型的示例——您将使用这些模型为序数回归生成线性预测变量。
然后,如果你想预测 y[m]
项目 i
和用户 j
的一些新组合,你可以在生成的数量块中将其作为后验预测量.您可以通过抽样或期望来做到这一点;在潜在离散参数章节的变点模型和关于预测的回归章节中都有一个例子。