使用 R 中的 plyr 从我的数据摘要中遗漏 NA 的问题
Problems with missing out NAs from my data summary using plyr in R
我正在尝试使用 plyr 总结我的数据,以便使用 ggplot2 将其呈现在图表中。我使用了我在 R cookbook 上找到的函数(在下面引用),它处理了一组没有缺失值的数据并且它工作得很好,但是自从我在一个有缺失值的数据集上尝试它之后,它就不起作用了,输出对于密度 returns NA 对于 "Density"(又名平均值)但不是 N、SD 或 SE)。我曾尝试将 na.rm= 子句更改为 TRUE,但这没有帮助。有人可以帮我理解我在这里做错了什么吗?
我还将包含我正在导入到 R 中的 excel 文件格式的图像。
非常感谢。
summarySE <- function(data=NULL, measurevar, groupvars=NULL, na.rm=FALSE,
conf.interval=.95, .drop=TRUE) {
library(plyr)
# New version of length which can handle NA's: if na.rm==T, don't count them
length2 <- function (x, na.rm=FALSE) {
if (na.rm) sum(!is.na(x))
else length(x)
}
# This does the summary. For each group's data frame, return a vector with
# N, mean, and sd
datac <- ddply(data, groupvars, .drop=.drop,
.fun = function(xx, col) {
c(N = length2(xx[[col]], na.rm=na.rm),
mean = mean (xx[[col]], na.rm=na.rm),
sd = sd (xx[[col]], na.rm=na.rm)
)
},
measurevar
)
# Rename the "mean" column
datac <- rename(datac, c("mean" = measurevar))
datac$se <- datac$sd / sqrt(datac$N) # Calculate standard error of the mean
# Confidence interval multiplier for standard error
# Calculate t-statistic for confidence interval:
# e.g., if conf.interval is .95, use .975 (above/below), and use df=N-1
ciMult <- qt(conf.interval/2 + .5, datac$N-1)
datac$ci <- datac$se * ciMult
return(datac)
}
ggplotdata <- summarySE(data, measurevar="Density", groupvars=c("Genotype", "Region"))
我找到了解决我自己问题的方法!我意识到我必须 将单元格留空 而不是在 excel 中输入 NA(并更改 na.rm=T)。
我正在尝试使用 plyr 总结我的数据,以便使用 ggplot2 将其呈现在图表中。我使用了我在 R cookbook 上找到的函数(在下面引用),它处理了一组没有缺失值的数据并且它工作得很好,但是自从我在一个有缺失值的数据集上尝试它之后,它就不起作用了,输出对于密度 returns NA 对于 "Density"(又名平均值)但不是 N、SD 或 SE)。我曾尝试将 na.rm= 子句更改为 TRUE,但这没有帮助。有人可以帮我理解我在这里做错了什么吗?
我还将包含我正在导入到 R 中的 excel 文件格式的图像。
非常感谢。
summarySE <- function(data=NULL, measurevar, groupvars=NULL, na.rm=FALSE,
conf.interval=.95, .drop=TRUE) {
library(plyr)
# New version of length which can handle NA's: if na.rm==T, don't count them
length2 <- function (x, na.rm=FALSE) {
if (na.rm) sum(!is.na(x))
else length(x)
}
# This does the summary. For each group's data frame, return a vector with
# N, mean, and sd
datac <- ddply(data, groupvars, .drop=.drop,
.fun = function(xx, col) {
c(N = length2(xx[[col]], na.rm=na.rm),
mean = mean (xx[[col]], na.rm=na.rm),
sd = sd (xx[[col]], na.rm=na.rm)
)
},
measurevar
)
# Rename the "mean" column
datac <- rename(datac, c("mean" = measurevar))
datac$se <- datac$sd / sqrt(datac$N) # Calculate standard error of the mean
# Confidence interval multiplier for standard error
# Calculate t-statistic for confidence interval:
# e.g., if conf.interval is .95, use .975 (above/below), and use df=N-1
ciMult <- qt(conf.interval/2 + .5, datac$N-1)
datac$ci <- datac$se * ciMult
return(datac)
}
ggplotdata <- summarySE(data, measurevar="Density", groupvars=c("Genotype", "Region"))
我找到了解决我自己问题的方法!我意识到我必须 将单元格留空 而不是在 excel 中输入 NA(并更改 na.rm=T)。