来自混合效应模型的 "significant" 随机效应的毛虫图
A caterpillar plot of just the "significant" random effects from a mixed effects model
我以前在这里寻求帮助有很好的经验,我希望能再次得到一些帮助。
我正在估计一个相当大的混合效应模型,其中一个随机效应具有超过 150 个不同的水平。这将使标准的毛毛虫图变得难以阅读。
如果可能的话,我想得到随机效应水平的毛毛虫图,由于缺乏更好的术语,"significant"。那就是:我想要一个毛毛虫图,其中随机截距 或 变化系数的随机斜率具有 "confidence interval" (我知道这不完全是这样)不包括零。
从 sleepstudy
标准数据中考虑这个标准模型 lme4
。
library(lme4)
fit <- lmer(Reaction ~ Days + (Days|Subject), sleepstudy)
ggCaterpillar(ranef(fit,condVar=TRUE), QQ=FALSE, likeDotplot=TRUE, reorder=FALSE)[["Subject"]]
我会得到这个毛虫图。
我使用的毛虫图来自。请注意,我倾向于对间隔使用不太保守的界限(即 1.645*se 而不是 1.96*se)。
基本上,我想要一个只包含 308、309、310、330、331、335、337、349、350、352 和 370 级别的毛毛虫图,因为这些级别有截距 或 间隔不包括零的斜率。我问是因为我的超过 150 个不同级别的毛毛虫图有点难以理解,我认为这可能是一个有价值的解决方案。
后面是可重现的代码。我真诚地感谢任何帮助。
#
ggCaterpillar <- function(re, QQ=TRUE, likeDotplot=TRUE, reorder=TRUE) {
require(ggplot2)
f <- function(x) {
pv <- attr(x, "postVar")
cols <- 1:(dim(pv)[1])
se <- unlist(lapply(cols, function(i) sqrt(pv[i, i, ])))
if (reorder) {
ord <- unlist(lapply(x, order)) + rep((0:(ncol(x) - 1)) * nrow(x), each=nrow(x))
pDf <- data.frame(y=unlist(x)[ord],
ci=1.645*se[ord],
nQQ=rep(qnorm(ppoints(nrow(x))), ncol(x)),
ID=factor(rep(rownames(x), ncol(x))[ord], levels=rownames(x)[ord]),
ind=gl(ncol(x), nrow(x), labels=names(x)))
} else {
pDf <- data.frame(y=unlist(x),
ci=1.645*se,
nQQ=rep(qnorm(ppoints(nrow(x))), ncol(x)),
ID=factor(rep(rownames(x), ncol(x)), levels=rownames(x)),
ind=gl(ncol(x), nrow(x), labels=names(x)))
}
if(QQ) { ## normal QQ-plot
p <- ggplot(pDf, aes(nQQ, y))
p <- p + facet_wrap(~ ind, scales="free")
p <- p + xlab("Standard normal quantiles") + ylab("Random effect quantiles")
} else { ## caterpillar dotplot
p <- ggplot(pDf, aes(ID, y)) + coord_flip()
if(likeDotplot) { ## imitate dotplot() -> same scales for random effects
p <- p + facet_wrap(~ ind)
} else { ## different scales for random effects
p <- p + facet_grid(ind ~ ., scales="free_y")
}
p <- p + xlab("Levels of the Random Effect") + ylab("Random Effect")
}
p <- p + theme(legend.position="none")
p <- p + geom_hline(yintercept=0)
p <- p + geom_errorbar(aes(ymin=y-ci, ymax=y+ci), width=0, colour="black")
p <- p + geom_point(aes(size=1.2), colour="blue")
return(p)
}
lapply(re, f)
}
library(lme4)
fit <- lmer(Reaction ~ Days + (Days|Subject), sleepstudy)
ggCaterpillar(ranef(fit,condVar=TRUE), QQ=FALSE, likeDotplot=TRUE, reorder=FALSE)[["Subject"]]
ggsave(file="sleepstudy.png")
首先,感谢您将“显着性”用引号引起来...阅读本文的每个人都应该记住,显着性在这种情况下没有任何 统计 意义(可能是最好使用 Z 统计量(value/std.error)标准,例如 |Z|>1.5 或 |Z|>1.75,只是为了强调这是 而不是 推理阈值...)
最后我有点忘乎所以了……我决定稍微 refactor/modularize 事情会更好,所以我写了一个 augment
方法(设计用于broom
包)从 ranef.mer
对象构造有用的数据框...一旦完成,您想要的操作就非常简单。
我将 augment.ranef.mer
代码放在了我的答案的末尾——它有点长(您需要获取它的源代码才能 运行 此处的代码)。 更新:这个augment
方法已经成为broom.mixed
包的一部分已经有一段时间了...
library(broom)
library(reshape2)
library(plyr)
将augment
方法应用于RE对象:
rr <- ranef(fit,condVar=TRUE)
aa <- augment(rr)
names(aa)
## [1] "grp" "variable" "level" "estimate" "qq" "std.error"
## [7] "p" "lb" "ub"
现在 ggplot
代码已经很基本了。我使用 geom_errorbarh(height=0)
而不是 geom_pointrange()+coord_flip()
因为 ggplot2
不能将 coord_flip
与 facet_wrap(...,scales="free")
...
一起使用
## Q-Q plot:
g0 <- ggplot(aa,aes(estimate,qq,xmin=lb,xmax=ub))+
geom_errorbarh(height=0)+
geom_point()+facet_wrap(~variable,scale="free_x")
## regular caterpillar plot:
g1 <- ggplot(aa,aes(estimate,level,xmin=lb,xmax=ub))+
geom_errorbarh(height=0)+
geom_vline(xintercept=0,lty=2)+
geom_point()+facet_wrap(~variable,scale="free_x")
现在找到您要保留的级别:
aa2 <- ddply(aa,c("grp","level"),
transform,
keep=any(p<0.05))
aa3 <- subset(aa2,keep)
仅使用具有“显着”斜率或截距的水平更新毛毛虫图:
g1 %+% aa3
如果您只想突出显示“重要”级别而不是完全删除“不重要”级别
ggplot(aa2,aes(estimate,level,xmin=lb,xmax=ub,colour=factor(keep)))+
geom_errorbarh(height=0)+
geom_vline(xintercept=0,lty=2)+
geom_point()+facet_wrap(~variable,scale="free_x")+
scale_colour_manual(values=c("black","red"),guide=FALSE)
##' @importFrom reshape2 melt
##' @importFrom plyr ldply name_rows
augment.ranef.mer <- function(x,
ci.level=0.9,
reorder=TRUE,
order.var=1) {
tmpf <- function(z) {
if (is.character(order.var) && !order.var %in% names(z)) {
order.var <- 1
warning("order.var not found, resetting to 1")
}
## would use plyr::name_rows, but want levels first
zz <- data.frame(level=rownames(z),z,check.names=FALSE)
if (reorder) {
## if numeric order var, add 1 to account for level column
ov <- if (is.numeric(order.var)) order.var+1 else order.var
zz$level <- reorder(zz$level, zz[,order.var+1], FUN=identity)
}
## Q-Q values, for each column separately
qq <- c(apply(z,2,function(y) {
qnorm(ppoints(nrow(z)))[order(order(y))]
}))
rownames(zz) <- NULL
pv <- attr(z, "postVar")
cols <- 1:(dim(pv)[1])
se <- unlist(lapply(cols, function(i) sqrt(pv[i, i, ])))
## n.b.: depends on explicit column-major ordering of se/melt
zzz <- cbind(melt(zz,id.vars="level",value.name="estimate"),
qq=qq,std.error=se)
## reorder columns:
subset(zzz,select=c(variable, level, estimate, qq, std.error))
}
dd <- ldply(x,tmpf,.id="grp")
ci.val <- -qnorm((1-ci.level)/2)
transform(dd,
p=2*pnorm(-abs(estimate/std.error)), ## 2-tailed p-val
lb=estimate-ci.val*std.error,
ub=estimate+ci.val*std.error)
}
我以前在这里寻求帮助有很好的经验,我希望能再次得到一些帮助。
我正在估计一个相当大的混合效应模型,其中一个随机效应具有超过 150 个不同的水平。这将使标准的毛毛虫图变得难以阅读。
如果可能的话,我想得到随机效应水平的毛毛虫图,由于缺乏更好的术语,"significant"。那就是:我想要一个毛毛虫图,其中随机截距 或 变化系数的随机斜率具有 "confidence interval" (我知道这不完全是这样)不包括零。
从 sleepstudy
标准数据中考虑这个标准模型 lme4
。
library(lme4)
fit <- lmer(Reaction ~ Days + (Days|Subject), sleepstudy)
ggCaterpillar(ranef(fit,condVar=TRUE), QQ=FALSE, likeDotplot=TRUE, reorder=FALSE)[["Subject"]]
我会得到这个毛虫图。
我使用的毛虫图来自
基本上,我想要一个只包含 308、309、310、330、331、335、337、349、350、352 和 370 级别的毛毛虫图,因为这些级别有截距 或 间隔不包括零的斜率。我问是因为我的超过 150 个不同级别的毛毛虫图有点难以理解,我认为这可能是一个有价值的解决方案。
后面是可重现的代码。我真诚地感谢任何帮助。
#
ggCaterpillar <- function(re, QQ=TRUE, likeDotplot=TRUE, reorder=TRUE) {
require(ggplot2)
f <- function(x) {
pv <- attr(x, "postVar")
cols <- 1:(dim(pv)[1])
se <- unlist(lapply(cols, function(i) sqrt(pv[i, i, ])))
if (reorder) {
ord <- unlist(lapply(x, order)) + rep((0:(ncol(x) - 1)) * nrow(x), each=nrow(x))
pDf <- data.frame(y=unlist(x)[ord],
ci=1.645*se[ord],
nQQ=rep(qnorm(ppoints(nrow(x))), ncol(x)),
ID=factor(rep(rownames(x), ncol(x))[ord], levels=rownames(x)[ord]),
ind=gl(ncol(x), nrow(x), labels=names(x)))
} else {
pDf <- data.frame(y=unlist(x),
ci=1.645*se,
nQQ=rep(qnorm(ppoints(nrow(x))), ncol(x)),
ID=factor(rep(rownames(x), ncol(x)), levels=rownames(x)),
ind=gl(ncol(x), nrow(x), labels=names(x)))
}
if(QQ) { ## normal QQ-plot
p <- ggplot(pDf, aes(nQQ, y))
p <- p + facet_wrap(~ ind, scales="free")
p <- p + xlab("Standard normal quantiles") + ylab("Random effect quantiles")
} else { ## caterpillar dotplot
p <- ggplot(pDf, aes(ID, y)) + coord_flip()
if(likeDotplot) { ## imitate dotplot() -> same scales for random effects
p <- p + facet_wrap(~ ind)
} else { ## different scales for random effects
p <- p + facet_grid(ind ~ ., scales="free_y")
}
p <- p + xlab("Levels of the Random Effect") + ylab("Random Effect")
}
p <- p + theme(legend.position="none")
p <- p + geom_hline(yintercept=0)
p <- p + geom_errorbar(aes(ymin=y-ci, ymax=y+ci), width=0, colour="black")
p <- p + geom_point(aes(size=1.2), colour="blue")
return(p)
}
lapply(re, f)
}
library(lme4)
fit <- lmer(Reaction ~ Days + (Days|Subject), sleepstudy)
ggCaterpillar(ranef(fit,condVar=TRUE), QQ=FALSE, likeDotplot=TRUE, reorder=FALSE)[["Subject"]]
ggsave(file="sleepstudy.png")
首先,感谢您将“显着性”用引号引起来...阅读本文的每个人都应该记住,显着性在这种情况下没有任何 统计 意义(可能是最好使用 Z 统计量(value/std.error)标准,例如 |Z|>1.5 或 |Z|>1.75,只是为了强调这是 而不是 推理阈值...)
最后我有点忘乎所以了……我决定稍微 refactor/modularize 事情会更好,所以我写了一个 augment
方法(设计用于broom
包)从 ranef.mer
对象构造有用的数据框...一旦完成,您想要的操作就非常简单。
我将 augment.ranef.mer
代码放在了我的答案的末尾——它有点长(您需要获取它的源代码才能 运行 此处的代码)。 更新:这个augment
方法已经成为broom.mixed
包的一部分已经有一段时间了...
library(broom)
library(reshape2)
library(plyr)
将augment
方法应用于RE对象:
rr <- ranef(fit,condVar=TRUE)
aa <- augment(rr)
names(aa)
## [1] "grp" "variable" "level" "estimate" "qq" "std.error"
## [7] "p" "lb" "ub"
现在 ggplot
代码已经很基本了。我使用 geom_errorbarh(height=0)
而不是 geom_pointrange()+coord_flip()
因为 ggplot2
不能将 coord_flip
与 facet_wrap(...,scales="free")
...
## Q-Q plot:
g0 <- ggplot(aa,aes(estimate,qq,xmin=lb,xmax=ub))+
geom_errorbarh(height=0)+
geom_point()+facet_wrap(~variable,scale="free_x")
## regular caterpillar plot:
g1 <- ggplot(aa,aes(estimate,level,xmin=lb,xmax=ub))+
geom_errorbarh(height=0)+
geom_vline(xintercept=0,lty=2)+
geom_point()+facet_wrap(~variable,scale="free_x")
现在找到您要保留的级别:
aa2 <- ddply(aa,c("grp","level"),
transform,
keep=any(p<0.05))
aa3 <- subset(aa2,keep)
仅使用具有“显着”斜率或截距的水平更新毛毛虫图:
g1 %+% aa3
如果您只想突出显示“重要”级别而不是完全删除“不重要”级别
ggplot(aa2,aes(estimate,level,xmin=lb,xmax=ub,colour=factor(keep)))+
geom_errorbarh(height=0)+
geom_vline(xintercept=0,lty=2)+
geom_point()+facet_wrap(~variable,scale="free_x")+
scale_colour_manual(values=c("black","red"),guide=FALSE)
##' @importFrom reshape2 melt
##' @importFrom plyr ldply name_rows
augment.ranef.mer <- function(x,
ci.level=0.9,
reorder=TRUE,
order.var=1) {
tmpf <- function(z) {
if (is.character(order.var) && !order.var %in% names(z)) {
order.var <- 1
warning("order.var not found, resetting to 1")
}
## would use plyr::name_rows, but want levels first
zz <- data.frame(level=rownames(z),z,check.names=FALSE)
if (reorder) {
## if numeric order var, add 1 to account for level column
ov <- if (is.numeric(order.var)) order.var+1 else order.var
zz$level <- reorder(zz$level, zz[,order.var+1], FUN=identity)
}
## Q-Q values, for each column separately
qq <- c(apply(z,2,function(y) {
qnorm(ppoints(nrow(z)))[order(order(y))]
}))
rownames(zz) <- NULL
pv <- attr(z, "postVar")
cols <- 1:(dim(pv)[1])
se <- unlist(lapply(cols, function(i) sqrt(pv[i, i, ])))
## n.b.: depends on explicit column-major ordering of se/melt
zzz <- cbind(melt(zz,id.vars="level",value.name="estimate"),
qq=qq,std.error=se)
## reorder columns:
subset(zzz,select=c(variable, level, estimate, qq, std.error))
}
dd <- ldply(x,tmpf,.id="grp")
ci.val <- -qnorm((1-ci.level)/2)
transform(dd,
p=2*pnorm(-abs(estimate/std.error)), ## 2-tailed p-val
lb=estimate-ci.val*std.error,
ub=estimate+ci.val*std.error)
}